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Kurzfassung 


Im Bereich der Kameraüberwachung von Menschen werden unterschiedliche 
Aspekte wichtig. Dazu gehört das Tracking von Menschen, wobei nicht nur 
die aktuelle Position wichtig ist. Das Trackingergebnis muss weiterverarbeitet 
werden, um Rückschlüsse auf den Zustand des Beobachteten zu ziehen, wie 
zum Beispiel die derzeitige Leistungsfähigkeit oder die Emotion. Zur Beur- 
teilung der Leistungsfähigkeit von Probanden, muss ein Basiswert für diesen 
vorliegen. Für die Schätzung des emotionalen Zustands muss der Gesichts- 
ausdruck beobachtbar sein. 


Zur Auswertung von Bilddaten durch Menschen und Maschinen muss eine 
Registrierung der Bilddaten erfolgen. Am Beispiel von Beobachterversuchen 
zur Beurteilung von emissionshemmenden Materialien in Infrarotaufnahmen, 
wurde durch die direkte Projektion von GPS-Punkten in Bilddaten die Schät- 
zung von Bild-zu-Bild Homographien verbessert. Das Tracking von Objekten 
im Video wurde zunächst am Beispiel eines Flugzeugs evaluiert. Feste Mess- 
stationen am Boden empfangen nicht informative Signale von einem Flug- 
zeug. Der Sendezeitpunkt war unbekannt, nur der Empfangszeitpunkt lag vor. 
Durch die paarweise Subtraktion der Empfangszeiten ergeben sich sogenann- 
te Time Differences of Arrival. Setzt man diese Zeitdifferenzen als Messungen 
in ein, um die aktuelle Position zu ermitteln, ergibt sich hierduch ein hyper- 
bolischer Schnitt. Mit der direkten Verwendung der Empfangszeiten verein- 
facht sich die Positionsbestimmung zu einem Kegelschnitt. In einem stochas- 
tischen Filter wurde der unbekannte Sendezeitpunkt simultan mit der Positi- 
on geschätzt, wodurch eine robuste Ermittlung der Flugzeugposition erreicht 
werden konnte. 


Für die Schätzung des emotionalen Zustands des Menschen muss das Trackin- 
gergebnis mehr enthalten als die Position. Am Beispiel des Auges wurde von 
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der Iris mit dem Tracking von ausgedehnten Objekten sowohl die Position, 
als auch Ausmaß und Form verfolgt. Hier wurde zunächst mit einem einfa- 
chen parametrischen Formmodell gearbeitet. Das Tracking ausgedehnter Ob- 
jekte wurde im Anschluss für die Verfolgung von Gesichtern angewendet. 
Da hier kein einfaches parametrisches Formmodell verwendet werden konn- 
te, wurde auf ein 68 Punkte umfassendes Landmarkenmodell zurückgegrif- 
fen. Um einem Auseinanderdriften der Landmarken entgegenzuwirken, wur- 
de eine nichtlineare Nebenbedingung eingeführt. Mit dieser Nebenbedingung 
wird garantiert, dass die Landmarken die Form des Gesichts beibehalten. Da- 
zu wird die Schätzung des Modells mit der vorher trainierten Hauptkompo- 
nentenanalyse transformiert und rücktransformiert, so dass Fehler durch ei- 
ne Drift eliminiert werden. Hierdurch wird garantiert, dass das Gesicht in der 
erwarteten Form verbleibt und eine weitere Analyse des Gesichtsausdrucks 
vorgenommen werden kann. 


Anschließend geht es um die Leistungsfähigkeit von Menschen. Zunächst 
wird darauf eingegangen, die Beobachtungsleistung zu evaluieren. In einer 
ersten Studie wird untersucht, ob ein Trainingseffekt für Beobachter nachge- 
wiesen werden kann. In Videos einer simulierten Menschenmenge, in der sich 
Avatare mit und ohne Rucksack über einen Platz bewegen, mussten die Pro- 
banden die Avatare mit Rucksack finden und markieren. Mit Einzelbildern 
dieser Videos, in denen sich ausschließlich Avatare ohne und mit Rucksack 
befanden, wurden die Probanden trainiert. Durch Auswertung des Zustands 
vor dem Training und nach dem Training wurde versucht, einen Trainings- 
effekt nachzuweisen. Aufgrund einer sehr geringen Teilnehmerzahl konnte 
kein eindeutiger Trainingseffekt nachgewiesen werden. In einer zweiten Stu- 
die wurden die Probanden durch automatische Trackingsysteme unterstützt. 
Hier ging es darum, herauszufinden, ob ein solches System als unterstützend 
oder störend wahrgenommen wird. Unter der Ausführung einer Nebentätig- 
keit, in der ein zufällig erklingender akustischer Stimulus quittiert werden 
sollte, wurde die Arbeitslast der Probanden evaluiert. Bei einer moderaten 
Anzahl an Markierungen zeigt sich ein tendenziell positiver Effekt, der durch 
eine Erhöhung der Markierungsanzahl wieder aufgehoben wird. 
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Im Anschluss liegt der Fokus der Arbeit auf der Schätzung des emotionalen 
Zustands aus dem Gesichtsausdruck des beobachteten Menschen. Das Pro- 
blem der Ermittlung des emotionalen Gesichtsausdrucks wurde bereits viel- 
fach mit dem Einsatz von tiefen, neuronalen Netzen gelöst. Aus diesem Grund 
konzentriert sich diese Arbeit auf den Einsatz von analytischen Merkmalen. 
Mit einem neuartigen Modell, das auf dem 68 Punkte umfassenden Land- 
markenmodell basiert, wird anhand von Winkel- und Größenmerkmalen ein 
Merkmalsvektor generiert. Die Winkelmerkmale enthalten zum Beispiel den 
Öffnungswinkel der Augenlider. Als Größenmerkmale werden die Achsen- 
verhältnisse von Ellipsen verwendet, die anhand der Landmarken der Augen 
oder des Mundes geschätzt werden. Daraus ergibt sich ein 29 Einzelmerk- 
male beinhaltender Merkmalsvektor, der als Angle-and-Size-Feature Set (ASF) 
bezeichnet wird. In Experimenten ergaben sich vergleichbare Ergebnisse zu 
aktuellen tiefen, neuronalen Netzarchitekturen. 


Abschließend befasst sich diese Arbeit mit der dynamischen Erweiterung der 
emotionalen Gesichtsausdruckschätzung. In einem neuartigen Ansatz wird 
zunächst mit einem Gaußprozess eine Abbildung des ASF-Merkmals in den 
Valenz-Erregungs-Raum definiert. Diese zweidimensionale Repräsentation 
des aktuellen emotionalen Zustands wird dann als Systemzustand für ein 
stochastisches Filter genutzt. Es wird eine Nebenbedingung definiert, die 
verhindert, dass der Systemzustand den Einheitskreis des Valenz-Erregungs- 
Raums verlässt. Dadurch wird eine unkontrollierte Drift des Zustands ver- 
hindert. Die dynamische Verfolgung des emotionalen Zustands konnte nicht 
mit dem Stand der Technik verglichen werden, da hier keine entsprechende 
Arbeit vorhanden war. 
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1 Einleitung 


Durch zunehmende Technisierung in verschiedenen Bereichen entstehen 
immer weitere Anwendungsmöglichkeiten zur Unterstützung der Sicherheit 
mit Kameras. Kameras werden zum Beispiel in Autos eingesetzt, um Müdig- 
keit beim Fahrer frühzeitig zu erkennen. Die kamerabasierte Überwachung 
öffentlicher Plätze zur Vermeidung von Straftaten oder Identifizierung einzel- 
ner Personen generiert eine riesige Datenmenge. Daher wird die Erforschung 
automatischer Methoden zur Auswertung der Datenfülle notwendig, um 
menschliche Beobachter gezielt zu unterstützen. Daraus leiten sich unter- 
schiedliche Problemstellungen ab. Zum Einen müssen Beobachter für die 
Beobachtung geschult werden, um sie für die Erkennung von Menschen mit 
spezifischen Eigenschaften zu trainieren. Zum Anderen müssen Algorithmen 
entwickelt werden, die zur Unterstützung der menschbasierten Überwachung 
eingesetzt werden können. Zur Entwicklung von automatischen Algorithmen 
muss zunächst das automatische Überwachungsproblem formuliert werden. 
Das automatische System soll Menschen erfassen und tracken. Das Trackin- 
gergebnis muss weiter ausgewertet werden können, um zum Beispiel die 
aktuelle Situation zu beurteilen. Wird der Mensch als ausgedehntes Objekt 
getrackt, können nachträglich Merkmale extrahiert werden zur Erkennung 
der aktuellen Emotion des Menschen. Der emotionale Zustand kann auf 
zwei Arten bewertet werden: Zum Einen durch die isolierte Betrachtung 
zum jeweils aktuellen Zeitpunkt. Zum Anderen durch die Betrachtung des 
zeitlichen Ablaufs des emotionalen Zustands, durch Tracking. Von diesen 
Problemstellungen werden in dieser Arbeit folgende Teilaspekte betrachtet: 


e Automatische Verfolgung von Menschen, wobei in dieser Arbeit das 
Tracking von ausgedehnten Objekten behandelt wird. 
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« Training von menschlichen Beobachtern, um die Aufgabe der Beobach- 
tung effizient unter Verwendung von Verfahren zur automatischen Ob- 
jektdetektion durchführen zu können. 


e Automatische Klassifikation des emotionalen Gesichtsausdrucks. 


« Zur Erfassung des emotionalen Gesichtsausdrucks wird in dieser Ar- 
beit die Fragestellung behandelt, ob die dynamische Entwicklung des 
Gesichtsausdrucks verfolgt werden kann. 


Zur Auswertung der entstehenden Bilddaten durch menschliche Beobachter 
ist eine spezifische Schulung wichtig. Hierzu werden verschiedene Ansätze 
betrachtet: Zunächst sollen Interaktionen von Menschen mit dem Video ge- 
nau erfasst werden. Die Auswertung muss auf einem statistisch relevanten 
Fundament ausgeführt werden, um die Beobachtung korrekt beurteilen zu 
können. Unter Verwendung dieser Grundlagen wird in dieser Arbeit unter- 
sucht, ob ein Trainingseffekt für solche Beobachtungsversuche ermittelt wer- 
den kann. Zusätzlich wird der Einfluss von automatischen Zielerfassungssys- 
temen auf die effektive Beobachtungsleistung von menschlichen Beobachtern 
untersucht. Der beschriebene Einfluss auf die Leistungsfähigkeit ist die Kon- 
zentration, die ein Mensch aufwenden muss, um einen effektiven Nutzen aus 
dem automatischen Zielerfassungssystems zu ziehen. Ein hohes Maß an Kon- 
zentration führt zu Ermüdung und einem Nachlassen der Leistungsfähigkeit. 


Neben der Müdigkeit gibt es weitere Einflussfaktoren, die die Leistungsfähig- 
keit von Menschen beeinflussen. Ein wichtiger Aspekt ist die Emotion eines 
Menschen. Eine Emotion kann aus einem beobachteten Gesichtsausdruck er- 
kannt werden. Das Gesicht muss über einen längeren Zeitraum beobachtet 
werden, um den Gesichtsausdruck analysieren zu können. Mit einem effi- 
zienten Trackingalgorithmus kann das Gesicht automatisch und dynamisch 
verfolgt werden. Trackingalgorithmen werden zur Verfolgung von Objekten 
eingesetzt, wie zum Beispiel von Flugzeugen. 


Flugzeuge stellen ein klassisches Trackingobjekt dar. Ein Flugzeug führt koor- 
dinierte Bewegungen aus, die leicht modelliert werden können. Für ein Flug- 
zeug genügt die Betrachtung der aktuellen Position. Ein Gesicht hingegen 
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kann sich auf verschiedene Arten bewegen. Es kann seine Position veran- 
dern und es kann sich durch Anspannung der mimischen Muskulatur verän- 
dern, zum Beispiel durch Veränderung des Gesichtsausdrucks. Um eine Ände- 
rung des Gesichts zu erfassen, reicht eine punktförmige Verfolgung nicht aus. 
Das Gesicht muss als ausgedehntes Objekt betrachtet werden. Um das Tra- 
cking ausgedehnter Objekte einzuführen, wird diese Form des Trackings am 
Beispiel der menschlichen Iris gezeigt. Dieser Ansatz wird im Anschluss auf 
Gesichter erweitert und mit Hilfe von Nebenbedingungen definiert. Aus der 
ausgedehnten Betrachtung des Gesichts können der Gesichtsausdruck und 
weitere Informationen analysiert werden. Hierdurch wird eine Grundlage für 
die dynamische Beobachtung von Gesichtern geschaffen. Das Tracking des 
Gesichts als ausgedehntes Objekt ist eine Grundlage für die statische und dy- 
namische Betrachtung der aktuellen Emotion. 


Ausgehend von der Beobachtung des ausgedehnten Objekts, dem Gesicht, 
werden weitergehende Problemstellungen betrachtet. Durch Gesichtsausdrü- 
cke werden Informationen transportiert, die Hinweise auf die aktuelle Ge- 
mütslage beinhalten. Es wird die Fragestellung bearbeitet, ob es Merkmale 
gibt, die eine Klassifikation des emotionalen Gesichtsausdrucks zulassen. Un- 
ter Merkmalen versteht man eindeutig beschreibende Eigenschaften von Tei- 
len des Gesichts. In dieser Arbeit wird eine Menge von Merkmalen entwickelt, 
mit der sich der emotionale Gesichtsausdruck klassifizieren lässt. 


Die Klassifikation basiert auf Erkennung statischer emotionaler Gesichtsaus- 
drücke. Ein Gesichtsausdruck entwickelt sich dynamisch. Der neutrale Ge- 
sichtsausdruck kann als Ausgangspunkt definiert werden. Durch willkürli- 
che Anspannung der mimischen Muskulatur wird ein Gesichtsausdruck ein- 
genommen. Ausgehend von dieser Annahme wird die Fragestellung unter- 
sucht, ob die dynamische Entstehung dieses Gesichtsausdrucks unter Kom- 
bination von Trackingverfahren und des im vorherigen Schritt entwickelten 
Merkmalssatzes ausgewertet werden kann. 


Die Arbeit ist wie folgt aufgebaut: Kapitel 2 geht auf den Stand der Technik 
ein. Zusätzlich werden in diesem Kapitel eigene Publikationen erläutert. Ka- 
pitel 3 stellt die in dieser Arbeit verwendeten Methoden vor und führt diese 
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Kapitel 3: Grundlagen | 


Kapitel 4: Kapitel 5: Kapitel 6: Kapitel 7: 
Tracking von Bewertung der Erkennung von Tracking 
Punkt- und ausge- menschlichen emotionalen von 
dehnten Objekten Leistungsfähigkeit Gesichtsausdrücken Emotionszuständen 


quake 


Abbildung 1.1: Relation der einzelnen Kapitel zueinander und Abhängigkeit der Kapitel von den 
Veröffentlichungen zu dieser Arbeit. 


technisch ein. In Kapitel 4 wird das Tracking beschrieben mit dem Anwen- 
dungsfall des Gesichtslandmarkentrackings. Kapitel 5 befasst sich mit dem 
Training von menschlichen Beobachtern und der Bewertung von Beobach- 
tungsleistung. Kapitel 6 behandelt die Klassifikation von Emotionen unter 
der Konstruktion neuer Merkmale für die Erkennung von emotionalen Zu- 
ständen. Abschließend behandelt Kapitel 7 die dynamische Schätzung und 
Verfolgung des emotionalen Zustands unter Verwendung der Merkmale zur 
Klassifikation von Emotionen aus dem vorangehenden Kapitel. Das letzte Ka- 
pitel schließt mit einer bewertenden und zusammenfassenden Diskussion der 
Arbeit ab. Abbildung 1.1 verdeutlicht den Aufbau der Arbeit. 


2 Stand der Technik 


2.1 Tracking von Menschen/Gesichtern 


Diese Arbeit behandelt das Tracking von Menschen. Es werden emotiona- 
le und leistungsbezogene Zustande des Menschen betrachtet. Die Emotionen 
werden durch Beobachtung des Gesichts erkannt. Als Sensorik kommen dabei 
hauptsächlich Kameras im visuellen bis nahen Infrarotspektrum zu Einsatz. Es 
wird davon ausgegangen, dass sich das Gesicht zu jeder Zeit im Blickfeld der 
Kamera befindet. Das Tracking von Gesichtern kann in zwei Klassen unter- 
teilt werden: Gesichtstracking basierend auf lokalen Bildmerkmalen und das 
Tracking basierend auf Formmodellen. 


Bradski hat in [Bra98] bereits 1998 einen Gesichtstracker veröffentlicht, der 
lokale Bildmerkmale verwendet und ein Echtzeittracking von Gesichtern und 
beliebigen Objekten ermöglicht. Grundlage für die Verfolgung von Objekten 
sind approximierte Wahrscheinlichkeitsverteilungen basierend auf Farbhis- 
togrammen. Bradski nutzt diese Farbhistogramme aufgrund der Invarianzei- 
genschaften gegenüber Translation und Rotation des Bildes. Bradski hat den 
Meanshift-Algorithmus erweitert, um ein verbessertes Tracking der Moden 
der Wahrscheinlichkeitsverteilungen zu implementieren. Bradski detektiert 
das Massezentrum der Verteilung und kann hierdurch neben der Position des 
Gesichts auch die Orientierung des Gesichts ermitteln. 


Kim et al. [Kim08] und Kalal et al. [Kal10] verwenden Formmodelle zum Tra- 
cking des menschlichen Gesichts, was in die zweite Klasse von Gesichtstra- 
ckern gehört. Kim et al. verwenden ein adaptives Zielmodell für das Tracking 
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mit zusätzlichen visuellen Nebenbedingungen. Als grundlegendes Formmo- 
dell wird ein Active Appearance Model (AAM) eingesetzt. Die visuelle Ne- 
benbedingung soll die Anpassung des Formmodells an Nichtziele verhindern. 
Die Nebenbedingung wird verwendet, um verschiedene Hypothesen zu ver- 
werfen. Durch dieses Vorgehen konnten Kim et al. in [Kim08] einen stabilen 
Tracker prasentieren, der in der Lage ist, Gesichter in langeren, verrauschten 
Bildsequenzen zu tracken. Zur Einhaltung der Nebenbedingung verwendeten 
die Autoren eine Support Vektor Maschine (SVM). Kalal et al. verwendeten in 
[Kal10] einen Tracking Learning Detection (TLD) Ansatz. Kalal et al. konn- 
ten in diesem Framework einen beliebigen Detektor verwenden, um dyna- 
misch auf neue Hypothesen reagieren zu können. Zusätzlich zum Detektor 
wurde ein Validierer verwendet. Die Autoren nutzten einen Random-Forest- 
Klassifikator für die Validierung von Hypothesen. Beide Ansätze nutzen Mo- 
delle zur Abbildung der Gesichter. Es wurden zusätzliche Stabilitätskriterien 
definiert, um das aktuell getrackte Objekt nicht zu verlieren und der Verwen- 
dung von Fehlmessungen vorzubeugen. 


Die vorliegende Arbeit entwickelt einen Tracker, der auf Formmodellen ba- 
siert. Als Formmodell wird ein Landmarkenmodell verwendet, das durch ei- 
nen generischen Detektor an ein Gesicht angepasst werden kann. Für diese 
Detektoren gibt es verschiedene Ansätze, die auf Active Appearence Modellen 
oder Constraint Local Methods basieren. Beide Modellansätze werden durch 
ein 68 Punkte umfassendes Landmarkenmodell repräsentiert. Die vorhande- 
nen Verfahren nutzen kaskadierende Regression. 


Ein Repräsentant für die merkmalsbasierten Ansätze ist der Algorithmus von 
King. In [Kin09] stellte King die Bibliothek Dlib vor. Darin ist ein Detektor 
enthalten, der Histogram of Oriented Gradients (HoG)-Deskriptoren verwen- 
det. Der Algorithmus verwendet eine SVM, um die Kandidatenpunkte als dem 
Modell zugehörig oder nicht zugehörig zu klassifizieren. Durch dieses Vorge- 
hen wird das Landmarkenmodell einem mittleren Modell angepasst. Das Vor- 
gehen des Detektors basiert grundsätzlich auf dem in [Kaz14] von Kazemi et 
al. vorgestellten robusten, kaskadierenden Regressionsverfahren. 


2.2 Leistungstracking und -klassifikation 


Qu hat in seiner Dissertation [Qu18] eine Lösung für die dreidimensionale 
Registrierung von Gesichtsmodellen präsentiert. Zur Erhöhung der Robust- 
heit wurde die Gesichtssuperresolution eingesetzt, um niedrigaufgelöste Bil- 
der nutzen zu können. In Qu etal. [Ou14] wurde gezeigt, dass dreidimensiona- 
le Gesichtsmodelle robust und schnell aus Videos extrahiert werden können. 
Für die Erkennung von Gesichtern wurde in Qu et al. [Qu15c] das Verfah- 
ren um die Extraktion von Texturen erweitert. In Qu et al. [Ou15b] wurde die 
zweidimensionale zur dreidimensionalen Verwendung von Gesichtsmodellen 
verglichen. Für die Anpassung von dreidimensionalen Gesichtsmodellen bil- 
den Landmarken eine Basis. In Qu et al. [Qu15a] wurde ein leistungsfähiger, 
regressionsbasierter Algorithmus zur Anpassung von Landmarken an Gesich- 
ter in unterschiedlichen Posen vorgestellt. Dieser Algorithmus wird in dieser 
Arbeit als Grundlage für die Erkennung von emotionalen Gesichtsausdrücken 
verwendet. Im Vergleich zu Kazemi et al. [Kaz14] erreichen Qu et al. eine Ver- 
besserung der Robustheit bei der Landmarkenanpassung. In Qu et al. [Ou15d] 
wurde die Robustheit der dreidimensionalen Gesichtsmodellschätzung durch 
Rotationsupdates gesteigert. Eine weitere Verbesserung der Texturnutzung 
wurde durch die Nutzung von Patches in Qu et al. [Qu17] erreicht. 


2.2 Leistungstracking und -klassifikation 


Neben der Erkennung und dem Tracking von Gesichtern können menschliche 
Zustände auch durch Leistung charakterisiert werden. Die Leistungsfähigkeit 
eines Menschen wird durch Müdigkeit beeinflusst. Somit ist die Müdigkeit 
ein starker Indikator für die Leistungsfähigkeit. Müdigkeit kann direkt und 
indirekt gemessen werden. 


Für die direkte Erkennung von Müdigkeit werden visuelle Verfahren einge- 
setzt. Vural et al. präsentierten in [Vur07] einen Klassifikationsalgorithmus 
der auf Facial Action Unit (FAU)-Merkmalen basiert. Vural et al. verwendeten 
Methoden aus dem maschinellen Lernen, um ein Training mit Bildern aus ver- 
schiedenen Datenbanken zu ermöglichen. Neben der visuellen Betrachtung 
des Gesichts verwendeten Vural et al. sekundäre Sensorik wie Eye-Tracker 
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und Beschleunigungssensoren. Die Nutzung von multimodalen Eingangsgrö- 
ßen wird für diese Arbeit ausgeschlossen. Für eine Messung der Müdigkeit 
bieten die Beobachtungen aus einem Eye-Tracker und von Beschleunigungs- 
sensoren wertvolle Informationen. Es ist denkbar, dass sich die Augenbewe- 
gungen unter zunehmender Müdigkeit signifikant verändern. 


Ebenfalls auf FAU-Merkmalen basiert die Arbeit von Valstar und Pantik 
[Val12]. Valstar und Pantik verwendeten ein dynamisches Modell mit SVM 
und einem Hidden-Markov-Modell (HMM). Die Autoren nutzten die Kom- 
bination aus SVM und HMM zur Erkennung unterschiedlicher temporaler 
Phasen bei der Entstehung von Gesichtsausdrücken. Die Entstehung eines 
Gesichtsausdruck geschieht in einer hohen Geschwindigkeit, sodass eine 
Analyse der temporalen Phasen bei der Entstehung von Gesichtsausdrücken 
einen hohen Rechenaufwand benötigt. Dieser Aufwand wird in dieser Arbeit 
durch die Verwendung einer Support-Vektor-Maschine verringert. 


Die Leistungsfähigkeit kann auch über die Beobachtung der Leistung bei dedi- 
zierten Aufgaben betrachtet werden. In dieser Arbeit wird die Leistungsfähig- 
keit von Menschen anhand der zu bewältigenden Aufgabe betrachtet. Hierzu 
wurden in der Literatur keine vergleichbaren Studien gefunden. Somit wird 
auf eigene Arbeiten in Abschnitt 2.5 verwiesen. 


2.3 Emotionserkennung anhand von 
Einzelbilderkennung 


Der emotionale Zustand eines Menschen zeigt sich auf unterschiedliche Ar- 
ten. Ein emotionaler Gesichtsausdruck bietet eine visuelle Repräsentation für 
einen emotionalen Zustand [Ekm99]. Neben dem Gesichtsausdruck können 
multimodale Informationen verwendet werden, zum Beispiel audio-visuelle 
Reize wie die Körperhaltung und die Stimme von Beobachteten. In der vor- 
liegenden Arbeit konzentriert sich die Emotionserkennung auf die Klassifi- 
kation von Gesichtsbildern. Die Klassifikation von Gesichtsbildern kann in 
merkmalsbasierte Verfahren und tiefe neuronale Netze unterteilt werden. 


2.3 Emotionserkennung anhand von Einzelbilderkennung 


Die merkmalsbasierten Verfahren unterscheiden sich durch die verwende- 
ten Merkmale. Huang verwendete in seiner Disseration [Hual4] zwei un- 
terschiedliche Merkmale: Local Binary Patterns (LBP) und Local Quantised 
Patterns (LQP). Huang unterteilte dazu das Gesicht in Blöcke und bestimmte 
Histogramme basierend auf den Merkmalen als Deskriptor fiir das gesamte 
Gesicht. Die so entstehenden Merkmalsvektoren werden mit Klassifikations- 
verfahren verarbeitet. Die Extraktion der LBP und LQP ist sehr aufwandig 
und benötigt daher viel Zeit. Für eine Echtzeitverarbeitung müssen effizien- 
tere Verfahren gefunden werden. 


LOP sind eine Verallgemeinerung von LBP und Local Ternary Patterns (LTP). 
LQP werden über großen Nachbarschaften und tiefer Quantisierung berech- 
net. Dazu wird domänenadaptive Vektorquantisierung eingesetzt. Hussain et 
al. benutzen in [Hus12] LOP, um Gesichter zu erkennen. Die resultierenden 
Merkmalsvektoren, die nach der Quantisierung entstehen, sind hochdimen- 
sional. Mittels Hauptkomponentenanalyse wurde die Dimensionalität des 
Merkmalsvektors reduziert. Dies geschah zusätzlich zur Reduktion redun- 
danter Informationen im Merkmalsvektor, sowie zur Verhinderung von 
Overfitting. Die hohe Dimension des Merkmalsvektors setzt voraus, dass 
eine sehr große Anzahl an Eingabedaten vorliegt. Um diesem Umstand ent- 
gegenzuwirken, wurde eine Merkmalsreduktion durchgeführt. Diese beiden 
Punkte sprechen gegen eine direkte Verwendung dieses Ansatzes, da auch 
hier sehr hoher Aufwand betrieben werden muss. 


Neuronales Netz (NN) bilden eine Alternative zu den merkmalsbasierten An- 
sätzen. In der aktuellen Literatur werden verschiedene Netzarchitekturen ver- 
wendet, um hoch genaue Klassifikatoren für emotionale Gesichtsausdrücke 
zu entwickeln. Liu et al. verwendeten in [Liu15] ein dreidimensionales Fal- 
tungsnetz (3D-CNN) mit deformierbaren Nebenbedingungen für Gesichts- 
teile. Hierzu importieren sie ein deformierbaren Action-Parts-Lerner in das 
3D-CNN. Das 3D-CNN verfolgt zwei Ziele: Die Lokalisierung von Bereichen 
mit Gesichtsaktionen und das Lernen bereichsbasierter Repräsentationen. Das 
Netzwerk von Liu setzte sich aus sieben einzelnen Schichten zusammen: Einer 
Eingabeschicht, einer räumlich, temporalen Faltungsfilterschicht, einer wei- 
teren Faltungsfilterschicht zur Erkennung von Einzelemotionen. Die weiteren 
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Schichten summieren die Ergebnisse und Priifen die Einhaltung von Neben- 
bedingungen. 


Mollahosseini et al. [Mol16] prasentierten ein diinn besetztes (engl. sparse) 
CNN zur Erkennung von emotionalen Gesichtsausdriicken. Die Verwendung 
eines sparse CNN soll die Komplexität und die Neigung zu Overfitting re- 
duzieren. Die Autoren nutzten eine Inception-Schicht, um ein Netzwerk im 
Netzwerk zu realisieren. Hierdurch wurden lokale Merkmale verstärkt und 
die Pooling Leistung erhöht. Um vorab eine Registrierung der Bilddaten zu 
ermöglichen, verwenden Mollahosseini et al. ein Active Appearance Model 
mit Supervised Descent Methodik. 


Lopes et al. entwickelten in [Lop17] ein CNN für die Verwendung von gerin- 
gen Datenmengen für das Training. Sie verwendeten eine künstliche Vergrö- 
Berung der Datenbasis durch die Generierung von synthetischen Samples. Die 
Autoren beschrieben einen sehr aufwändigen Vorverarbeitungsprozess, der 
für alle präsentierten Faltungsnetze (CNNs) vorhanden ist. Die vorgestellten 
Architekturen unterscheiden sich geringfügig in der Zusammensetzung ihrer 
Schichten und liefern grundsätzlich sehr gute Ergebnisse bei der Verwendung 
der bekannten Gesichtsausdruckdatenbanken. 


Den NN ist gemeinsam, dass hier ein hohes Maß an Vorverarbeitung durchge- 
führt werden muss. Diese Vorverarbeitung ist nötig, um den Fokus der Merk- 
malsextraktion der NN auf für die Aufgabenstellung relevante Bildausschnitte 
zu fokussieren. Wenn der Bildausschnitt zu viel Hintegrund beinhaltet kann es 
passieren, dass statt des gewünschten Gesichtsausdrucks, Gemeinsamkeiten 
im Hintergrund gesucht werden, die dann nicht zwingend mit den korrekten 
emotionalen Gesichtsausdrücken zusammenfallen. Der Aufwand ist nahezu 
genauso groß, wie bei einem Ansatz, der auf Merkmalen basiert. Daher wird 
in dieser Arbeit auf einen merkmalsbasierten Ansatz zurückgegriffen. 
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2.4 Tracking von Emotionen 


Der Einzelbilderkennung steht das Tracking von Emotionen gegenüber, das 
Emotionen in einem dynamischen Kontext betrachtet. Im Verlauf einer Kom- 
munikation oder während der Betrachtung eines Films kann sich die Emotion 
eines Menschen verändern. Durch das Tracking von Emotionen kann diese 
Veränderung beobachtet werden. Der Stand der Technik kann in verschie- 
dene Strömungen unterteilt werden. Häufig werden Emotionen durch zwei- 
dimensionale Größen repräsentiert. Dies wird durch den Valenz-Erregungs- 
Raum realisiert. Das Tracking von Emotionen verwendet häufig multimodale 
Ansätze, die neben der visuellen Beobachtung des Gesichts auch Audio oder 
Haltungsinformationen verwenden. 


Malandrakis et al. verwenden in [Mal11] ein HMM, um in Filmen dargestellte 
Emotionen basierend auf visuellen und Audio-Merkmalen zu tracken. Die 
Merkmale wurden von Malandrakis et al. durch Gaußmischdichtenmodell 
(GMM) repräsentiert und somit dem HMM übergeben. Die Grundwahrheit 
der verwendeten Experimente wurde anhand von Experten und Laien an- 
notierten Filmsequenzen erstellt. Die in den Sequenzen wiedergegebenen 
Emotionen wurden von Schauspielern dargestellt. Es gibt keine natürlichen, 
spontanen Emotionen. Es kann keine Aussage darüber getroffen werden, 
wie das präsentierte Modell mit Sequenzen der gängigen Datenbanken funk- 
tioniert. Daher wird das Modell von Malandrakis et al. nicht zum Vergleich 
herangezogen. 


Metallinou et al. verwenden in [Met11] Merkmale basierend auf der Beob- 
achtung der Körpersprache und von Audio-Informationen. Für das Training 
wurde die CreativeIT-Datenbank mit Theaterszenen mit sehr ausgeprägten 
Bewegungen verwendet. Mit der annotierten Datenbank wurde ein Gauß- 
mischdichten (GMM) Modell trainiert. Die Einzelschritt Klassifikation erfolg- 
te unter Verwendung von Maximum Likelihood Schätzungen (MLE). Diese 
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Schatzungen wurden als Tracking-Ergebnis verwendet. Metallinou et al. nutz- 
ten eine validierte Datenbank von durch Schauspielern dargestellten Emotio- 
nen. Es wurde auch auf Audio-Informationen zurückgegriffen. Durch die Dar- 
stellung von Schauspielern könnte insbesondere die Audio-Information sehr 
stark überbetont sein. 


2013 präsentierten Metallinou et al. in [Met13] einen erweiterten Ansatz für 
das Tracking von Emotionen basierend auf Körpersprache und Spracherken- 
nung. Das verwendete Modell ist grundsätzlich das gleiche wie in [Met11]. 
Der Unterschied besteht in der Verwendung weiterer Sprachmerkmale und 
einer genaueren Annotation der Szenen. Dies konnte durch die Verwendung 
von Motion Capturing Daten erreicht werden. In [Met13] wurde der MLE An- 
satz basierend auf GMM durch die Verwendung von einem Long short-term 
Memory (LSTM)-Regressionsansatz erweitert. Metallinou et al. konnten die 
Ergebnisse ihrer vorherigen Studie leicht verbessern. In dieser Studie wur- 
de insbesondere die Annotation verbessert, da hier gänzlich auf Laien ver- 
zichtet wurde. Die Erweiterung um Motion Capturing Daten liefert genauere 
Messungen der Körpersprache. Außerdem wurde das Modell um ein LSTM 
erweitert, wodurch die Verbesserung der Ergebnisse leichter zu erklären sind. 


Ein auf Gesichtsmerkmalen und physiologischen Reaktionen basierendes dy- 
namisches Tracken von Emotionen ist in [Bai08] von Bailenson et al. ver- 
öffentlicht worden. Die Zielsetzung des Modells ist die Unterscheidung der 
Emotionen Freude und Traurigkeit. Die Autoren verwendeten multimoda- 
le Merkmale aus dem Gesicht und physiologische Messungen. Die Gesichts- 
merkmale basieren auf der Extraktion von Punkten aus Gesichtsvideos. Die 
physiologischen Informationen werden durch Messungen der kardiovaskulä- 
ren, somatischen Aktivitäten und der elektrischen Aktivität der Haut erfasst. 
Mit ihrem Modell erreichten Bailenson et al. eine gute Trennung der Emoti- 
onsklassen Freude und Traurigkeit. Das allgemeine Modell wurde zusätzlich 
mit personen- und geschlechtsspezifischen Modellen verglichen. Die Verwen- 
dung von Messungen des kardiovaskulären Systems liefert nur Informationen 
mit einer Latenz, da das kardiovaskuläre System verspätet auf emotionale Än- 
derungen reagiert. Anders ist das insbesondere bei Angst und Stress, da der 
Körper hier schnell auf Flucht umgestellt wird. Die somatische Aktivität hängt 
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stark von der Situation ab, in der die Emotion beobachtet wird. Nicht in jeder 
Situation wird eine Emotion durch große somatische Aktivitäten begleitet. 
Ebenso verhält es sich mit der elektrischen Aktivität der Haut. Auch hier ist 
nicht mit sehr starken Ausprägungen zu rechnen. Die Emotionsklassen Trau- 
rigkeit und Freude besitzen sehr unterschiedliche Gesichtsausdrücke, woraus 
hier bereits durch die Betrachtung der Ausdrücke eine starke Trennung vor- 


liegt. 


In der Recherche haben sich beim Tracking von Emotionen sehr viele Ansätze 
finden lassen, die auf multimodale Informationen zurückgreifen. Hier werden 
häufig Kombinationen aus Sprache und Gesten verwendet. Auf Gesichtsmerk- 
malen basiertes Tracking ist in der Literatur noch unterrepräsentiert. 


2.5 Eigene Veröffentlichungen 


Im Verlauf der Promotion wurden insgesamt zehn Artikel veröffentlicht, wo- 
von neun Artikel in Konferenzbänden erschienen sind und ein Artikel in einer 
Zeitschrift. 


2.5.1 Efficient multilateration tracking with concurrent 
offset estimation using stochastic filtering 
techniques 


Der Artikel [Dun10] wurde auf der International Conference on Information 
Fusion (FUSION 2010) in Edinburgh vorgestellt. In dem Artikel geht es um das 
Tracking von Flugzeugen basierend auf kooperativen Signalen. Die grundle- 
gende Idee bezieht sich auf die Verwendung von ausreichend weit voneinan- 
der verteilten Bodenstationen, die kooperative Signale ohne Positionsinfor- 
mation von Flugzeugen erhalten. Aus den ankommenden Signalen wurden 
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Zeitdifferenzen aus den Signalankunftszeiten ermittelt. Die Position des Flug- 
zeuges kann unter Verwendung des hyperbolischen Schnitts bestimmt wer- 
den. Die Bestimmung des hyperbolischen Schnitts ist vergleichsweise kom- 
plex. In dem Artikel wird auf die Verwendung der Zeitdifferenzen verzich- 
tet und auf die rohen Ankunftszeiten zuriickgegriffen. Implizit ist in diesen 
Informationen ein Offset enthalten, basierend auf der Entfernung des Flug- 
zeuges zu den spezifischen Basisstationen. Daraus ergibt sich die unbekannte 
Laufzeit des Signals. Um den unbekannten Offset zu bestimmen, erfolgt eine 
simultane Schätzung der Position und des Offsets. Damit wird ein System- 
zustand erstellt, der sich aus der Objektposition, der Objektgeschwindigkeit 
und dem unbekannten Offset zusammensetzt. 


Die Schatzung erfolgt unter Verwendung eines stochastischen Schatzers. Zur 
Formulierung des Schatzers wird das Messmodell unter Verwendung der 
entsprechenden Ankunftszeitformel mit einem additiven Rauschterm model- 
liert. Das Rauschen wird als gaußverteilt angenommen. Für das Systemmodell 
wird ein Interacting Multiple Model (IMM) unter Verwendung von Constant 
Position, Constant Velocity und Constant Acceleration Models eingesetzt. Je 
nach erwarteter Bewegung wird ein passendes Bewegungsmodell eingesetzt. 
Das Messmodell approximiert die Laufzeit des Signals und berechnet die 
Ankunftszeiten des Signals durch nichtlineare Gleichungen. 


Aufgrund dieser Modellierung wird ein nichtlineares Filter eingesetzt, das so- 
genannte Gaußfilter. Das Gaußfilter verwendet, wie auch das Unscented Kal- 
man Filter ein deterministisches Sampling auf Basis der ersten beiden Momen- 
te der A-Priori-Verteilung des Systemzustands. Da eine Gaußverteilung voll- 
standig durch die ersten beiden Momente charakterisiert werden kann, gilt im 
Gaußfilter die Annahme, dass alle Zustände durch Gaußdichten repräsentiert 
werden. Die Schätzung der Position und des Offsets erfolgt simultan. Für die 
Experimente wurden Flugzeug und Sensoren simuliert. In drei unterschiedli- 
chen Experimenten wurden zunächst die Rauschstärken variiert, die Anzahl 
der Sensoren und anschließend der Sensorausfall. Das vorgestellte Verfahren 
wurde mit Methoden aus dem Stand der Technik verglichen. Zusätzlich wur- 
den das Gaußfilter und das Unscented Kalman Filter gegenübergestellt, wobei 
das Gaußfilter die besten Ergebnisse erzielte. In allen Fällen wurde der Stand 
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der Technik in Bezug auf die Leistung übertroffen. Die Ergebnisse des Artikels 
wurden im Rahmen einer Patentanmeldung verwendet. 


Tracking ist ein elementarer Bestandteil für die dynamische Erfassung und 
Klassifizierung des aktuellen Emotionszustands eines Menschen. Tracking 
wird am Beispiel des Flugzeugs sehr häufig angewendet. Somit stellt hier 
das Tracking auf Basis nichtlinearer Messfunktionen eine Grundlage für das 
spätere Tracking von Emotionen dar. 


2.5.2 Exploitation of GPS control points in low-contrast 
IR imagery for homography estimation 


Der Artikel [Dun14] wurde beim Forum Bildverarbeitung 2014 in Regensburg 
vorgestellt. Das Papier beschreibt ein Verfahren zur Bestimmung von Bild- 
zu-Bild Transformationen, sogenannten Homographien. Im Artikel werden 
Bildsequenzen verwendet, die mit einer Infrarot-Kamera an Bord eines He- 
likopters aufgenommen wurden. Das Kamerasystem des Helikopters verfügt 
zusätzlich zu der Kamera noch über einen GPS Empfänger. Die Bilddaten wer- 
den aus erhöhter Position aufgenommen. Eine Grundvoraussetzung für die 
Berechnung von Homographien ist eine planare Szene. Aus dem Helikopter 
wurde eine Landschaft aufgenommen, in der nicht von einer planaren Sze- 
ne ausgegangen werden kann. Aufgrund des Fehlens einer planaren Szene 
entsteht ein Modellierungsfehler. Wegen dieser Problematik funktioniert ein 
Bildregistrierungsverfahren, das auf Punktkorrespondenzen von Merkmals- 
punkten basiert, nicht immer optimal. Es kann zu Bewegungsfehlern kom- 
men, die zu Drift führen. Um diese Probleme zu umgehen, wird in dem Arti- 
kel die Kameramatrix verwendet, um eine Abbildung zu generieren, die GPS 
Positionen in Bildpositionen projiziert. 


Hierzu werden im Zielgebiet feste Positionen mit GPS Geräten vermessen. Die 
Punkte werden in jedes Bild der Bildsequenz abgebildet. Daraus ergeben sich 
nahezu perfekte Korrespondenzen aus denen sich die Homographien bestim- 
men lassen. In der Experimentsektion des Papiers wurde ein merkmalsbasier- 
ter Ansatz mit Korrespondenzanalyse mit dem GPS-Punkt basierten Ansatz 
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verglichen. Mit Hilfe des GPS-basierten Ansatzes konnte das Driftverhalten 
deutlich reduziert werden. 


Die Vorverarbeitung von Videomaterial, das bei Beobachterversuchen einge- 
setzt wird, ist ein wichtiger Schritt. Uber die verbesserte Berechnung der Bild- 
zu-Bild Transformationen, können Zielobjekte, die sich im Bild befinden, zu 
jeder Zeit korrekt zugeordnet werden. Dies erleichtert die Auswertung der 
von den Beobachtern gesetzten Markierungen. Dies ist eine Grundlage für 
die Auswertung der Leistung der Beobachter. 


2.5.3 Homography estimation for low-contrast IR image 
sequences utilizing GPS control points 


Artikel [Dun15a] erschien in einem Special Issue zum Forum Bildverarbei- 
tung 2014 in der Zeitschrift Technisches Messen. Der Artikel beinhaltet eine 
Erweiterung von [Dun14]. Hier werden weitere Informationen neben der Ka- 
meramatrix und den GPS Punkten verwendet. Zusätzlich werden Informatio- 
nen aus der inertialen Messeinheit (IMU), die in dem Helikopter verwendet 
wird, in das System eingearbeitet. Ferner setzt sich die Projektionsmatrix aus 
mehreren Rotationsmatrizen und der Kameramatrix zusammen. 


Die erste Rotationsmatrix bezieht sich auf das Weltkoordinatensystem. Hier- 
zu wurde ein Koordinatensystem aus der Geodäsie verwendet, das sogenannte 
WGS-84-Koordinatensystem. WGS ist ein Akronym und setzt sich zusammen 
aus den Worten World Geodetic System. Es handelt sich dabei um ein 1989 
festgelegtes Standardsystem, das zum Beispiel in Navigationssystemen ver- 
wendet wird. Bei diesem Koordinatensystem handelt es sich um ein euklidi- 
sches Rechtssystem, in dem ein Referenzellipsoid, ein Geoid und die Lage der 
Fundamentalstation definiert sind. Der Referenzellipsoid ist näherungsweise 
an das Erdellipsoid angepasst. Die erste Rotationsmatrix wird dazu verwendet, 
um eine Transformation aus dem Kamerakoordinatensystem in das Weltkoor- 
dinatensystem ausführen zu können. Eine weitere Rotationsmatrix ergibt sich 
aus den Roll-, Pitch- und Yaw-Messungen der IMU, die im Kamerakoordina- 
tensystem definiert sind. Außerdem wird eine Viewport-Transformation ver- 
wendet, in der die Kameraorientierung und IMU in die Achsen einsortiert sind. 
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2.5 Eigene Veröffentlichungen 


Durch Hintereinanderschalten der Rotationen und der Kombination mit der 
Kameramatrix wird eine Transformation von GPS-Koordinaten in das Bild- 
koordinatensystem definiert. 


Durch die verbesserte Formulierung und die Nutzung weiterer Informationen, 
die aus der IMU erhalten werden können, kann das GPS-basierte System mit 
dem Stand der Technik mithalten. Verglichen wurde mit Bildregistrierungs- 
verfahren, die Scale-Invariant Feature Transform (SIFT) und Speeded Up Ro- 
bust Features (SURF) Merkmale verwenden. Die Genauigkeit, die mit SIFT und 
SURF erreicht wurde, konnte nicht erreicht werden, aber im Mittel wurde eine 
starke Verbesserung im Vergleich zum vorherigen Artikel erreicht. 


Mit diesem Artikel wurden die Ergebnisse des vorangehenden Artikels ver- 
bessert. Die Bild-zu-Bild Transformationen (Homographien) konnten erneut 
verbessert geschatzt werden. Die Auswertung der Beobachterversuche und 
die damit erbrachte Leistung der Beobachter kann verbessert ausgewertet 
werden. Der Fehler durch Ungenauigkeiten konnte signifikant reduziert wer- 
den. 


2.5.4 Evaluation of statistical methods for the evaluation 
of observer trials for the assessment of the 
effectiveness of signature measures 


Der Artikel [Dun15b] ist eine zusammenfassende Aufzählung und Bewertung 
von statistischen Methoden fiir die Auswertung von Beobachterversuchen. In 
diesem Artikel wurden Verfahren aufgezählt, mit denen sich interaktive Be- 
obachterversuche evaluieren lassen. Die Problemformulierung führt zunächst 
das Problem eines interaktiven Beobachterversuchs ein. Es werden Annähe- 
rungsflüge auf Zielobjekte per Infrarotkamera aufgenommen. Im Bild gibt es 
zwei Zielobjekte, wovon eines in ungetarnter Form vorliegt und das andere 
mit einer zu bewertenden Tarnvorrichtung bedeckt ist. Ziel der Versuche war 
es herauszufinden, welches der beiden Objekte vorteilhafter versteckt war, 
d.h. welches der Objekte später im Anflug entdeckt würde. 
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Die Beobachter setzen mit der Computermaus Markierungen in Videos. Die- 
se Markierungen können verschiedene Zustände annehmen. Diese Zustände 
repräsentieren die Erkennungsmodi Detektion, Klassifikation und Identifika- 
tion. In der Aufgabenbeschreibung stand bereits der Fahrzeugtyp fest. Aus 
dieser Interaktion ergeben sich mehrere Probleme. Zunächst besteht das Zu- 
ordnungsproblem, zu welchem Zielobjekt eine Markierung gehört. Aufgrund 
der Dynamik der Kameraführung liegen die Markierungen nicht immer genau 
auf den Zielobjekten. Ein weiteres Problem ist das erneute Anklicken einer 
Markierung, um den Zustand zu verändern. Hieraus ergibt sich ein weiteres 
Zuordnungsproblem. Anschließend müssen die Erkennungszeiten statistisch 
betrachtet werden und die Verteilungen der Markierungen korrekt behandelt 
werden, damit die korrekten Schlüsse für einen Abschlussbericht getroffen 
werden können. 


Dieser Artikel liefert einen Überblick über statistische Methoden, die bei der 
Auswertung von Beobachterversuchen zum Einsatz kommen. Die Auswer- 
tung der Beobachterleistung muss auf validen, statistischen Verfahren basie- 
ren. Die beschriebenen Verfahren adressieren die Problemstellung bei der Zu- 
ordnung von Markierungen zu einem in den Bilddaten befindlichen Zielob- 
jekt. Die Zuordnung von Kandidatenpunkten ist ein häufiges Problem und 
wird beim Tracking für ausgedehnte Objekte erneut aufgegriffen. 


2.5.5 Iris Tracking using extended object tracking 


Der Artikel [Dun16a] beschreibt einen Ansatz zum Verfolgen von größeren 
Objekten. Größere Objekte sind Objekte, die nicht durch einen Punkt reprä- 
sentiert werden, sondern durch eine geometrische Form beschrieben werden. 
In [Dun15a] wurde die Iris des menschlichen Auges als erweitertes Objekt 
betrachtet. Modelliert wurde die Form der Iris als ein Kreisobjekt. Die Para- 
meter des Zustands sind auf den Mittelpunkt und den Radius des Kreises be- 
grenzt. Die menschliche Iris wurde als zu trackendes Objekt ausgewählt, da 
hierdurch eine zuverlässige Verfolgung des Auges möglich ist. Hieraus kön- 
nen eine Vielzahl von Anwendungen abgeleitet werden, wie zum Beispiel das 
Eye Tracking, zur Feststellung der Blickrichtung. 
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2.5 Eigene Veröffentlichungen 


Das Trackingproblem wird in dem Papier in vier Teile aufgeteilt: Zunächst 
wird die Augenregion detektiert, die Iris wird segmentiert, die Parameter wer- 
den geschätzt und die Iris wird getrackt. Die Detektion der Augenregion wird 
unter Verwendung des Kaskadenklassifikators von Viola und Jones [Vio04] 
aus dem Gesichtsrechteck extrahiert. Die Segmentierung der Iris erfolgt zu- 
nächst über Erstellung eines Histograms über den Grauwerten und mittels 
adaptiven Einstellens eines Grenzwertes. Hierdurch kann die Iris in ein Bi- 
närbild überführt werden. Per Kantendetektion und der Bilder der konvexen 
Hülle kann die Iris erfasst werden. Die Punkte, die aus der Kantendetektion re- 
sultieren, werden als verrauschte Messungen eines Kreises angenommen und 
per generativer Formfunktion mit dem zu trackenden Modell in Verbindung 
gebracht. Somit kann festgestellt werden, welche Winkel betrachtet werden 
müssen, um die reale Messung mit dem Model in Verbindung zu bringen. Das 
Modell wird mit Hilfe eines Unscented Kalman Filter (UKF) geschätzt und 
verfolgt. 


In simulierten Experimenten erfolgt eine Überprüfung der Methodik. Es wird 
ein Augenbild per Random-Walk Modell positionell verändert. Der Tracking 
Algorithmus ist in der Lage das Auge verlässlich zu verfolgen. Prinzipiell bie- 
tet die Verfolgung der Iris eine robuste Methodik, das Auge zu beobachten und 
verschiedene Aufgaben zu bewältigen. Die Iris ist leichter zu segmentieren als 
die Pupille, da die Sklera zur Iris einen sehr starken Kontrast besitzt. 


Trackingmethoden verwenden häufig punktförmige Zielobjekte. Das Ziel die- 
ser Arbeit ist die Verfolgung des menschlichen Gesichts. In jedem Tracking- 
schritt muss die Emotion aus dem Gesichtsausdruck abgeleitet werden kön- 
nen. Die reine Erfassung der Position ist nicht ausreichend. Es müssen weite- 
re Informationen beim Tracking erfasst werden. Am Beispiel der Iris wird das 
Tracking von ausgedehnten Objekten vorgestellt. Die Iris wurde gewählt, weil 
die Form der Iris durch einen Kreis repräsentiert werden kann. Ein Gesicht ist 
nicht durch eine simple Form zu beschreiben. 
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2.5.6 Asynchronous threat awareness by observer trials 
using crowd simulation 


Mit dem Artikel [Dun16b] wurde eine Studie dokumentiert, bei der es um die 
Feststellung des Einflusses eines Trainingseffekts auf Uberwachungsaufgaben 
ging. Hierzu wurde in Kooperation mit den Schweizer Unternehmen Forven- 
tis und Armasuisse eine simulierte Uberwachungssituation geschaffen. Die 
Schweizer Kollegen stellten für die Studie einen Crowdsimulation zur Verfü- 
gung, in der ein öffentlicher Platz dargestellt wurde. Auf diesem Platz liefen 
100, 150 oder 200 Avatare durcheinander. Sie bewegten sich von einer Seite 
des Platzes zur anderen, nicht immer auf geraden Linien. Unter den Avataren 
gab es eine kleinere Anzahl an Avataren, die mit einem Rucksack ausgestattet 
waren. Es waren immer 10 Prozent der Avatare mit einem Rucksack ausge- 
stattet. Die Probanden hatten die Aufgabe diese Avatare zu detektieren und 
zu markieren. 


In der Studie wurde zunächst die Ist-Situation erfasst. Die Probanden ha- 
ben mehrere Videos betrachtet und diese Aufgabe ausgeführt. Dann folgten 
drei Trainingsläufe, bei denen ausschließlich Einzelbilder betrachtet wurden, 
in denen sich sowohl Avatare mit Rucksack befinden konnten als auch aus- 
schließlich Avatare ohne Rucksack. Die Reihenfolge der Trainingsbilder wur- 
de zufällig verändert. In den Experimenten wurden das Alter und die Erfah- 
rung der Probanden erfasst und die jeweilige Erkennungsleistung der Pro- 
banden. Es stellte sich heraus, dass es keine signifikante Verbesserung der 
Erkennungsleistung durch Training gab. Es gab auch keine signifikante Ver- 
schlechterung durch das Training. 


Neben der Emotion eines Menschen ist die Leistungsfähigkeit eine weitere Be- 
schreibungseigenschaft für einen Menschen. Mit der Leistungsfähigkeit las- 
sen sich Informationen über Müdigkeit und Konzentration ableiten. In diesem 
Artikel wurde untersucht, ob die Leistungsfähigkeit der Probanden durch ein 
Training verbessert werden kann. 
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2.5 Eigene Veröffentlichungen 


2.5.7 Dependency of human target detection 
performance on clutter and quality of supporting 
image analysis algorithms in a video surveillance 
task 


Der Artikel [Hub17] greift die Ergebnisse der Studie aus [Dun16b] erneut auf. 
Das Ziel dieser Studie war die Untersuchung, ob ein automatischer Detekti- 
onsalgorithmus die Leistung der Probanden unterstützt, oder eine Verschlech- 
terung der Leistung hervorruft. Es wurden fünfzehn Sequenzen verwendet 
und Detektionsrahmen manuell auf Avatare gesetzt. 


In den Sequenzen waren 100, 150 oder 200 Avatare vorhanden. Die Markie- 
rungen wurden variiert zwischen 0, 5, 10, 20 und 40 markierten Subjekten. 
Die Anzahl der mit Rucksack ausgestatteten Avatare liegt bei 10 Prozent. Die 
Probanden mussten während der Versuche auf einen akustischen Stimulus 
reagieren. Die Reaktionszeit und Trefferquote wurden gemessen, um die Ar- 
beitslast abzuschätzen. 


Die Ergebnisse der Studie zeigten, dass die Detektionszeit mit der Anzahl der 
Avatare steigt. Ebenso sinkt die Detektionsrate mit der Anzahl der Avatare. 
Für die Workload Messung mit dem akustischen Stimulus wurde der glei- 
che Effekt für die Reaktionszeit festgestellt. Mit steigender Avataranzahl stieg 
auch die Reaktionszeit. Für die Trefferquote konnte kein Effekt festgestellt 
werden. Es wurde eine U-förmige Korrelation zwischen der Anzahl der Mar- 
kierungen und der Reaktionszeit für den Workload-Task gefunden. Die Er- 
gebnisse lassen Implikationen für das Design von Beobachtertrainings zu. 


In diesem Artikel wurde ein zusätzlicher Task eingefügt, mit dem die aktuelle 
Belastung der Probanden gemessen werden konnte. Die aktuelle Belastung ist 
ein direkter Indikator für eine erhöhte Konzentration, die zu einer beschleu- 
nigten Ermüdung führen kann. Durch diese Betrachtung wurde eine weiterer 
Indikator festgestellt, mit dem sich der aktuelle Zustand des Menschen be- 
schreiben lässt. Allerdings ist das mit zusätzlichem Aufwand verbunden und 
kann nicht durch reine Beobachtung des Gesichts festgestellt werden. 
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2.5.8 Reduced Feature Set for Emotion Recognition 
based on Angle and Size Information 


Mit dem Artikel [Dun18a] wurde die Schätzung der menschlichen Emotion 
weiter optimiert. Das Gesicht wird erfasst und es wird ein 68 Punkte umfas- 
sendes Landmarkenmodell an das Gesicht angepasst. Dazu wird der Land- 
markendetektor von Qu et al. [Qu15a] eingesetzt. Basierend auf diesen Land- 
marken werden Merkmale abgeleitet. Diese Merkmale werden aus primitiven 
Merkmalen zusammengesetzt: aus 26 Winkeln und 3 Größencharakterisie- 
rungen, woraus sich der Name Angle-and-Size Features (ASF) ableitet. Zur 
Bestimmung der Winkel werden Geraden aus Punktpaaren konstruiert; die 
Winkel entsprechen den Schnittwinkeln je zwei dieser Geraden. Die Größen- 
merkmale werden aus dem Verhältnis der Halbachsen von Ellipsen bestimmt. 
Die Ellipsen werden durch eine Least-Squares-Schätzung an die Randpunkte 
der Augen und des Mundes bestimmt. 


Zur Verdeutlichung der Leistungsfähigkeit des Merkmalssatzes erfolgen in 
dem Artikel Experimente auf den zwei Datenbanken Cohn-Kanade+ und 
Oulu-Casia. Ermittelt wurden die Erkennungsraten, Präzision und F}-Score, 
sowie die Genauigkeit für den Datensatz. Als Vergleichsmerkmalsatz wurde 
das Landmarkenmodell verwendet, das als Grundlage für den neuen Merk- 
malssatz dient. Zur Klassifikation für beide Modelle, wurde ein Multilayer 
Perzeptron Klassifikator eingesetzt. Es zeigte sich, dass die entwickelten 
Merkmale zu einer signifikant besseren Klassifikation führen, als ein Klassi- 
fikator, der die reinen Landmarken als Merkmale verwendet. Die generierten 
Merkmale lassen eine einfache Berechnung zu, wodurch eine starke Reduk- 
tion des Merkmalsraums stattfindet. 


Die Merkmale aus diesem Artikel sind die Basis für die Auswertung der Emo- 
tion. Die vermutliche Emotion des Menschen wird aus dem Gesichtsausdruck 
abgeleitet. Die Merkmale werden aus dem 68 Punkte umfassenden Landmar- 
kenmodell extrahiert. Es kommen nur einfache Primitive zum Einsatz, sodass 
eine schnelle Berechnung möglich wird. 
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2.5 Eigene Veröffentlichungen 


2.5.9 Comparison of Angle and Size Features with Deep 
Learning for Emotion Recognition 


Der Artikel [Dun18b] beschließt die statische Emotionserkennung mit einem 
Vergleich des Merkmalssatzes aus [Dun18a] mit Deep Learning Methoden. 
Zu diesem Zweck wurde das Deep Learning Modell durch ein VGG-16 Netz- 
werk vertreten. Um eine gute Vergleichsbasis zu erhalten, wurde das Netz- 
werk mit geringer Vorverarbeitung betrieben. Beide Methoden erhielten ge- 
nau den gleichen Anteil an Vorverarbeitung der Bilddaten. Während das Deep 
Learning Modell direkt das Bild als Eingang bekam, wurde ausgehend von der 
Vorverarbeitung die Extraktion der Merkmale angestoßen. 


Die Experimente wurden wiederum auf der Cohn-Kanade+ und der Oulu- 
Casia Datenbank durchgeführt. Für die Klassifikation wurde in diesem Artikel 
der XGBoost Klassifikator verwendet, einem Vertreter der Gradient Boosting 
Verfahren. Es wurden drei Experimente durchgeführt. Eines mit den Bildern 
der Datenbank Cohn-Kanade+, ein Zweites mit den Bildern der Datenbank 
Oulu-Casia und ein Drittes mit den Bildern beider Datenbanken. Beim Test 
mit den Bildern der Cohn-Kanade+ Datenbank wurden zwischen beiden Me- 
thoden nur geringe Unterschiede festgestellt, wobei der Merkmalssatz leicht 
bessere Ergebnisse lieferte. Bei der Oulu-Casia Datenbank erzielte der Merk- 
malssatz signifikant bessere Ergebnisse als das VGG-16 Modell. Dieser Um- 
stand setzte sich im gemeinsamen Test fort. Im Vergleich der Genauigkeiten 
mit State ofthe Art Deep Learning Modellen liefert der generierte Merkmals- 
satz analoge Ergebnisse. 


Deep Learning wird in vielen aktuellen Artikeln zur visuellen Emotionserken- 
nung eingesetzt. Der eingebrachte Merkmalssatz basiert auf Feature Enginee- 
ring und stellt die Merkmalerzeugung in den Vordergrund. Bei Deep Learning 
wird häufig der Eindruck erweckt, dass ein geringerer Aufwand im Vergleich 
zum Feature Engineering. Der Artikel zeigt, dass die meisten vorgestellten 
Deep Learning Artikel sehr viel Aufwand bei der Vorverarbeitung der Bild- 
daten aufwenden, um sehr gute Erkennungsraten zu erreichen. Ohne diesen 
erhöhten Aufwand bei der Vorverarbeitung kann die Leistung eines tiefen 
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neuronalen Netzes nur schwer mit der Leistung des vorgestellten Merkmal- 
satzes konkurrieren. 


2.5.10 Gaussian Process based Dynamic Facial Emotion 
Recognition 


Der Artikel [Dun19] verwendet die ASF-Merkmale als Messungen fir das 
Tracking des Emotionszustands. Dieser wird durch einen zweidimensiona- 
len Vektor reprasentiert. Der Vektor ist im Valenz-Erregungsraum (engl. 
Valence-Arousal-Space) definiert. Es wird ein Gaußprozess trainiert, um die 
ASF-Merkmale in den Valenz-Erregungsraum abzubilden. Die Messungen 
können direkt im Tracker verarbeitet werden. Der Trackingalgorithmus 
wird unter Verwendung eines Unscented-Kalman-Filters implementiert. Da 
keine direkte Annahme über die Systemdynamik für den Emotionszustand 
getroffen werden kann, wird hier ein Constant-Position-Model (CP-Modell) 
als Systemmodell verwendet. Die direkte Verwendung der Messungen mit 
diesem einfachen Systemmodell im Unscented-Kalman-Filter führt zu Drift 
des Systemzustands. Zur Verhinderung dieser Drift wird in diesem Paper eine 
Ungleichheitsnebenbedingung in das Unscented-Kalman-Filter integriert. 


Die Funktionsweise des Trackers wird mittels Sequenzen aus den Bildda- 
tenbanken Oulu-Casia und Cohn-Kanade+ getestet. Da zum Zeitpunkt der 
Veröffentlichung kein vergleichbares Verfahren existierte, konnte kein direk- 
ter Vergleich zum Stand der Technik durchgeführt werden. Dennoch wurden 
gründliche Experimente durchgeführt, die die Qualität des präsentierten 
Verfahrens verdeutlichen. 


In diesem Artikel werden die Untersuchungen der vorangehenden Artikel zu- 
sammengeführt. Der Merkmalssatz wird mittels eines Gaußprozesses in eine 
Valenz-Erregungsraum Darstellung überführt und mit einem stochastischen 
Schätzer getrackt. 
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3 Grundlagen 


Das Grundlagenkapitel führt Verfahren aus den Bereichen Computer Vision, 
stochastische Zustandsschätzung, Klassifikation und Regression ein. Die hier 
präsentierten Verfahren und Methoden werden in den folgenden Kapiteln vor- 
ausgesetzt. Aus dem Bereich Computer Vision wird ein Modell zur Repräsen- 
tation von Gesichtsausdrücken eingeführt und Algorithmen, mit denen ein 
solches Modell an ein Gesicht angepasst werden kann. Mehrere Kapitel dieser 
Arbeit handeln vom Tracking von punktförmigen oder ausgedehnten Objek- 
ten. Aus diesem Grund werden stochastische Schätzer und die zugehörigen 
Grundlagen aus dem Gebiet der stochastischen Zustandsschätzung vorgestellt. 
Weitere Kapitel behandeln die automatische Erkennung von emotionalen Ge- 
sichtsausdrücken anhand von frontalen Gesichtsabbildungen, daher werden 
verschiedene Methoden des maschinellen Lernens benötigt. Diese kommen 
aus den Bereichen Klassifikation und Regression. 


Im ersten Abschnitt werden Methoden aus der maschinellen Bildverarbeitung 


eingeführt. 


3.1 Computer Vision 


Ein zentraler Bestandteil dieser Arbeit ist eine für Maschinen verwertbare 
Darstellung von Gesichtsausdrücken. Die Extraktion von strukturellen Infor- 
mationen eines Gesichtsausdrucks aus Bildern ist für die Klassifikation von 
Emotionen wichtig. Zur Vereinfachung der Struktur eines Gesichtsausdrucks 
wird eine geometrische Beschreibung eingeführt. Grundlage dieser Beschrei- 
bung ist ein auf 68 Punkten basierendes Landmarkenmodell. In Abbildung 3.1 
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Abbildung 3.1: 68 Punkte umfassendes Landmarkenmodell zur geometrischen Reprasentation 
eines Gesichtsausdruck. Die Auspragung des Gesichtsausdrucks resultiert als 
Mittelwert einer großen Menge von traurigen Gesichtsausdrücken. 


ist eine Mittelung des Landmarkenmodells aus einer großen Menge trauriger 
Gesichtsausdrücke zu sehen. 


Die Punkte des Landmarkenmodells sind nummeriert mit Indizes aus der 
Menge {0, ---,67%. Nicht alle Punkte des Landmarkenmodells werden als 
Landmarken bezeichnet. Nur jene Punkte, die sich an gut differenzierbaren 
Stellen des Gesichts befinden, werden als echte Landmarken benannt. Bei- 
spiele für diese gut differenzierbaren Stellen sind Mund- und Augenwinkel. 
Zwischen den Landmarken werden Punkte äquidistant verteilt. Der gene- 
relle Aufbau des Landmarkenmodells wird in Cootes und Taylor [Coo00] 
beschrieben. 


Für die Anpassung des Landmarkenmodells an beliebige Gesichter existieren 
in der Literatur verschiedene Ansätze. Zwei Beispiele sind hier die Verfahren 
von Qu et al. [Ou15a] sowie von Kazemi et al. [Kaz14]. Diese beiden Verfahren 
werden in den nächsten beiden Unterabschnitten eingeführt. 
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3.1 Computer Vision 


3.1.1 Landmarkendetektion von Qu et al. 


Die Anpassung des Landmarkenmodells wird in Qu et al. [Qu15a] als Regres- 
sionsproblem 


N 

0 * 
Dill, x®) - x? 12 (3.1) 
i=1 


definiert, wobei die r(-, -) die Regressionsfunktion ist mit dem Bild I; und der 
(0) 
i 

Gesicht definiert. Nach Qu et al. ist eine direkte Lösung dieser Funktion mit 


anzupassenden mittleren Form x, `. Durch x; wird die wahre Form für das 
einer einschrittigen Regression nur unzureichend möglich. Aus diesem Grund 
wählen Qu et al. in [Qu15a] ein kaskadiertes Regressionsverfahren, um der 
Komplexität der Formanpassung zu genügen. Als Regressionsmethode ver- 
wenden die Autoren das Iteratively Reweighted Least-Squares (IRLS) Verfah- 
ren. In jedem Einzelschritt wird ein gewichtetes Least-Squares Problem gelöst, 
wodurch eine robuste Regression erreicht wird [Gre84]. 


Die Landmarken werden durch Deskriptoren repräsentiert. Die Autoren set- 
zen dazu Root-SIFT Merkmale ein. Diese basieren auf Histogrammen. SIFT 
steht für Scale-Invariant Feature Transform und ist ein Detektor und Merk- 
malsdeskriptor für Bilddaten. Der resultierende Merkmalsvektor des SIFT- 
Detektors besteht aus 128 Elementen, die weitere Informationen über den 
detektierten Pixel enthalten. Die Deskriptoren sind skalen- und rotationsin- 
variant und unempfindlich gegenüber Beleuchtungsänderungen. Das SIFT- 
Verfahren wurde von Lowe in [Low99] publiziert. Die Umwandlung des Merk- 
malsvektors in Root-SIFT Merkmale geschieht über die Transformation der 
Deskriptoren mit dem Hellinger-Kernel 


H(x, y) = vi (3.2) 
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in den Hellinger Raum. Hierdurch wird garantiert, dass die Distanzberech- 
nung in der Regression anhand der Hellingermetrik geschieht. Nach Qu et 
al. [Qui5a] hat dies den Vorteil, dass schwach ausgeprägte Histogramm- 
werte verstärkt werden, die bei der Verwendung der euklidischen Distanz 
zu schwach repräsentiert werden. Die Autoren folgern, dass hierdurch eine 
höhere Präzision bei der Lokalisierung erreicht wird. 


Ein weiterer Optimierungsschritt erfolgt durch eine verbesserte Anpassungs- 
strategie in den Einzelschritten. Die Autoren beschreiben, dass leichte Ro- 
tationen des Gesichts zu Schwierigkeiten bei der Anpassung führen können. 
Aus diesem Grund schlagen die Autoren vor, eine zweischrittige Anpassungs- 
strategie einzusetzen. Im ersten Schritt wird durch die trainierten Regresso- 
ren eine approximierende Form angepasst. Auf Basis dieser approximierenden 
Form wird die Ähnlichkeitstransformation zur mittleren Form bestimmt. Das 
Eingangsbild wird anhand dieser Transformation an die Form angepasst. Die 
weitere Anpassung erfolgt durch Anwendung der trainierten Regressoren. Im 
Anschluss wird die berechnete Transformation auf das Bild angewendet. Das 
Bild rotiert und skaliert, um das Gesicht in eine aufrechte Position zu bringen. 
Basierend auf den extrahierten Root-SIFT Merkmalen der mittleren Form wird 
diese erneut mit den trainierten Regressoren angepasst. Die Autoren können 
mit Experimenten die durch die Optimierung entstandene Robustheit belegen. 


3.1.2 Landmarkendetektion von Kazemi et al. 


Kazemi et al. in [Kaz14] wenden zur Lösung des Regressionsproblems (3.1), 
wie Qu etal., einen kaskadierten Regressionsalgorithmus an. Die Ansätze von 
Kazemi et al. und Qu et al. unterscheiden sich in zwei Punkten: Kazemi et al. 
verwenden Regressionsbäume im Gegensatz zum IRLS Verfahren und Pixel- 
intensitäten. 


Die Regressionsbäume für die Kaskanden werden mit dem Gradient-Boost- 
ing-Algorithmus von Friedman [Fri02] trainiert. Als Fehlerfunktion wird die 
Summe der quadratischen Distanzen verwendet. Das Ziel jeder Kaskade ist die 
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Verbesserung der Genauigkeit. Die Anzahl der Kaskaden wird durch die ge- 
wünschte Genauigkeit limitiert. Auf Basis von Pixelintensitäten werden in je- 
dem Regressionsbaum relevante Merkmale ausgewählt. Hierzu werden lokale 
Pixeldifferenzen berechnet. Der Grenzwert für die Auswahl der Pixeldifferen- 
zen wird adaptiv verändert, um lokale Beleuchtungsunterschiede auszuglei- 
chen. Zur Einschränkung des Suchraums für optimale Grenzen definieren die 
Autoren eine A-Priori-Exponentialverteilung. Zusätzlich erhalten die Autoren 
eine hohe Genauigkeit. Zur Verifizierung der Methode führen die Autoren in 
[Kaz14] Tests auf einer Vielzahl von Bilddatenbanken mit vielversprechen- 
den Ergebnissen durch. 


3.2 Stochastische Filterung 


Die stochastische Filterung präsentiert eine Lösung für das Filterproblem aus 
der Theorie der stochastischen Prozesse. Das Filterproblem soll die beste Schät- 
zung des Zustands für ein System auf der Basis von verrauschten Beobachtun- 
gen finden. Das von Rudolf Emil Kälmän in [Käl60] entwickelte Kalman Filter 
ist das beste lineare Filter für lineare Systeme. Für die Verwendung in nichtli- 
nearen Systemen existieren nichtlineare Erweiterungen für das Kalman Filter. 
Ein Beispiel ist das Unscented Kalman Filter (UKF)von Julier und Uhlmann 
[Jul99]. 


Im Folgenden werden Verfahren zur stochastischen Filterung dargestellt. Ei- 
nen guten Überblick über weitere stochastische Filterverfahren erhält man in 
Simon [Sim06]. Zunächst werden stochastische Prozesse und das stochasti- 
sche Filterproblem erläutert. Abschließend werden konkrete Lösungen für das 
Filterproblem mit dem Kalman Filter und Unscented Kalman Filter vorgestellt. 
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3.2.1 Stochastische Prozesse 


Ein stochastischer Prozess besteht aus einer Menge von Zufallsvariablen. Als 
Voraussetzung muss zunächst ein Wahrscheinlichkeitsraum (Q, £, P) gege- 
ben sein, wobei Q die Grundgesamtheit ist, £ eine o-Algebra und P ein Wahr- 
scheinlichkeitsmaß über X. Die Menge X wird auch als Ereignisraum bezeich- 
net, da hier alle möglichen Ereignisse aus der Grundgesamtheit enthalten sind. 
Für den Fall einer disrekten Ereignismenge Q gilt die Potenzmenge © = 22 
als triviale o-Algebra. Das Wahrscheinlichkeitsmaß P weist jedem Ereignis 
in È eine Wahrscheinlichkeit 


P: £» [0,1] (3.3) 


zu. Für einen stochastischen Prozess wird zusätzlich zum Wahrscheinlich- 
keitsraum eine Indexmenge T benötigt. Die Indexmenge enthält die Beobach- 
tungszeitpunkte eines stochastischen Prozesses. Übliche Mengen für T sind 
No und R,. Im Fall T = Nọ spricht man von einem zeitdiskreten stochas- 
tischen Prozess. Wenn T = R, gilt, dann ist der stochastische Prozess zeit- 
kontinuierlich. Für einen stochastischen Prozess muss es für jedes t € T eine 
Zufallsvariable 


X: (Q, 2) > (X, By) (3.4) 
geben, wobei (X,,3,) der Bildraum der Zufallsvariablen ist, mit Zustands- 


menge X, und Bildmenge 3,. Ein allgemeiner stochastischer Prozess wird 


durch 


XT = (Q, x, P, Xen) (3.5) 


definiert. Mit einem stochastischen Prozess lassen sich Modelle entwickeln, 
die mit Unsicherheiten behaftet sind. Beispielsweise kann bereits durch die 
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Modellierung eine Unsicherheit eingeführt werden. Ebenso Unsicherheiten, 
die durch die Umwelt induziert werden. Diese können ebenfalls als stochas- 
tische Prozesse definiert werden. Um das Filterproblem herzuleiten, wird die 
Zustandsraummodellierung für Prozesse eingeführt. 


3.2.2 Zustandsraummodelle 


Ein Zustandsraummodell kann über einen speziellen stochastischen Prozess 
motiviert werden. Ein solcher spezieller stochastischer Prozess ist durch den 
Markov-Prozess gegeben. Ein Markov-Prozess ist ein diskreter stochastischer 
Prozess mit einem endlichen oder abzählbar unendlichen Zustandsraum und 
der zusätzlichen Eigenschaft, dass der aktuelle Zustand von vorhergehenden 
Zuständen abhängt. In einer Markov-Kette können Übergangswahrschein- 
lichkeiten definiert werden. Die Wahrscheinlichkeit, dass der stochastische 
Prozess zum Zeitpunkt (t + 1) in Zustand (x41) übergeht ist durch 


P (Xiri = X¢411Xt = Xt, -X0 = Xo) (3.6) 


definiert, wobei die Wahrscheinlichkeit von allen vorherigen Zuständen 
abhängt. Das heißt, in diesem Prozess muss die gesamte Historie des stochas- 
tischen Prozesses beachtet werden. Durch die Ordnung einer Markov-Kette 
kann dieser Umstand limitiert werden. Eine Markov-Kette erster Ordnung 
hängt nur vom vorhergehenden Zustand ab, wohingegen eine Markov- 
Kette n-ter Ordnung von den n-letzten Zuständen abhängt. In dieser Arbeit 
werden nur Markov-Prozesse erster Ordnung verwendet. Die Übergangs- 
wahrscheinlichkeit aus (3.6) vereinfacht sich zu 


P&ır = KHK = Xp, -..,Xq = Xo) = P Kr = X41 |X = x) - (3.7) 


Betrachtet man den Fall, dass es zusatzlich einen Bildraum gibt, in dem ein sto- 
chastischer Prozess Beobachtungen emittiert, so kann die Wahrscheinlichkeit 
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einer Beobachtung y, € B, in Abhängigkeit des aktuellen Zustands x, € X, 
durch 


Plx) (3.8) 


bestimmt werden. Um das Filterproblem zu definieren, wird das Hidden- 
Markov-Modell (HMM) eingeführt. Bei dem HMM geht man davon aus, dass 
der aktuelle Zustand unbekannt ist und nur die Wahrscheinlichkeiten der Zu- 
standsübergänge bekannt sind. Ferner sind nur die Beobachtungen sichtbar. 
Im HMM heißen Beobachtungen Emissionen. Mit (3.8) und der Anwendung 
der Formel von Bayes kann das Filterproblem für das HMM durch 


POX: = Xp) + P(X, = x4) 


P(X: = xy) = — 
Èi- POX: = x;)- P(X; = xj) 


(3.9) 


angegeben werden, wobei P(y,|X; = x,) als Likelihood bezeichnet wird, die 
Wahrscheinlichkeit P(X, = x;) wird für die A-Priori-Wahrscheinlichkeit ein- 
gesetzt und der Nenner ist die Normierungskonstante P(y;) = pe PQ; |X; = 
xi) - P(X; = xi). Die Zielgröße ist die auf die aktuelle Beobachtung bedingte 
A-Posteriori-Wahrscheinlichkeit P(X; = x;|y;) des Zustands. Hier sind alle 
Zufallsvariablen diskret. 


Die Lösung des Filterproblems wird basierend auf kontinuierlichen Zufalls- 


vektoren x, und y diskutiert. Durch die Verwendung kontinuierlicher Grö- 


k 
ßen verändert sich der Nenner in der Filtergleichung in (3.9) zu einem In- 
tegral. Dieses Integral ist nicht immer geschlossen lösbar. Aus diesem Grund 
werden für das Kalman Filter unterschiedliche Annahmen getroffen. Eine An- 
nahme besteht darin, dass alle verwendeten Verteilungen Gaußverteilungen 
sind. Diese haben den besonderen Vorteil, dass Produkte und Faltungen zwei- 
er Gaußverteilungen wieder Gaußverteilungen sind. Zusätzlich wird davon 
ausgegangen, dass das zugrundeliegende System linear ist. Sind diese Vor- 
aussetzungen erfüllt, kann das Kalman Filter zur Lösung des Filterproblems 
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eingesetzt werden. Zusätzlich ist dann garantiert, dass das Filter eine opti- 
male Lösung ist. Durch die Annahme der Gaußverteilung kann der System- 
zustand durch einen Mittelwertvektor und die zugehörige Kovarianzmatrix 
repräsentiert werden. In einem zeitdiskreten System ergibt sich die System- 
kovarianzmatrix zu 


Oy 02 01,n 
2 
[0 D: [07 
ers. 2 am (3.10) 
2 
On,1 Ze On,n-1 On 


mit Zeitindex k, wobei die o? die Varianzen der Einzelkomponenten x; 

des Systemzustands sind und es gilt o;; = cov (xi, xj). Der zugehö- 

rige Mittelwertvektor wird auch Systemzustand genannt und ist durch 
T 

x, = [x1, +, Xn] gegeben. 


Ein konkretes Beispiel für die Lösung des Filterproblems stellt das Verfolgen 
von bewegten Objekten in Videos dar. Ein verfolgtes Objekt wird in diesem 
Fall durch seine Position repräsentiert. Im Fall eines Videos genügt die Angabe 
von X1,X2-Koordinaten. Daher ist durch 


k 
x, = | Xr | (3.11) 


ein Systemzustand definiert, wobei die Position in diesem Fall durch die Werte 


xk und x* repräsentiert wird. Die Systemkovarianzmatrix wird durch 


2 
O. O. 
Ck = | a | (3.12) 


9x1 x2 Ox, 


beschrieben. Ist der Systemzustand unkorreliert, so gilt o,, x, = 0. Ein mögli- 
ches Systemmodell ist das Constant Position Modell (CP). Das CP geht davon 
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aus, dass die Position des beobachteten Objekts, bis auf Rauschen, konstant 
ist. Ein Vorteil dieses Systemmodells stellt sich durch die Angabe einer li- 
nearen Systemgleichung dar. In diesem Fall kann die Systemgleichung durch 
eine Vektor-Matrix-Operation 


Ku A: x, tw, (3.13) 


angegeben werden, wobei durch A die Systemmatrix 


A= k il (3.14) 


gegeben ist und mit w, ~ N (0,C”) ein normalverteiltes, mittelwertfreies 
Rauschen mit definierter Kovarianzmatrix C” beschrieben wird. Die Kovari- 
anzmatrix des Rauschterms beschreibt die Rauschanteile, die auf die x,- und 
X2-Koordinaten Einfluss nehmen. Bei der Modellierung wird meist von un- 
korreliertem Rauschen ausgegangen, woraus sich die Kovarianzmatrix 


2 
w_ |x, 0 
CY = | 0 o2, (3.15) 


ableiten lässt. Das Systemmodell beschreibt die angenommene, eigenständige 
Bewegung des beobachteten Objekts. Das Kalman Filter verwendet Messun- 
gen aus der realen Welt, um eine verbesserte Schätzung des Systemzustands 
zu bestimmen. Hierzu wird ein Modell benötigt, mit dem der interne Zustand 
des Systems von außen beobachtet werden kann. Ein solches Modell wird als 
Abbildung aus dem Zustandsraum im den Beobachtungsraum definiert und 
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als Messmodell bezeichnet. Für das Kalman Filter wird ein lineares Messmo- 


dell 


y= H-x +V, (3.16) 
benötigt, wobei die Matrix H eine lineare Abbildung des Systemzustands 
x, ist und durch v, wird ein additiver Rauschterm definiert. Es gilt 


v, ~ N(0,C#). Durch 


H= F il (3.17) 


ist eine direkte Abbildung des gesamten Systemzustands definiert. Man 
spricht hier von einem direkt beobachtbaren Systemzustand, wohingegen 
ein indirekt beobachtbarer Zustand durch eine komplexere Abbildung be- 
schrieben wird. Damit sind alle Komponenten eines linearen, dynamischen 
Systems eingeführt. Das Schätzproblem umfasst die bestmögliche Schätzung 
des *Zustands x, unter Minimierung der Systemkovarianzmatrix Cx. Bezüg- 
lich des quadratischen Fehlers garantiert das Kalman Filter die bestmögliche 
Schätzung des Zustands für lineare Systeme. 


3.2.3 Kalman Filter 


Das Kalman Filter ist ein lineares Schätzverfahren. Das Kalman Filter wird in 
zwei Schritte aufgeteilt: einen Prädiktionsschritt und einen Filterschritt, wo- 
bei der Filterschritt davon abhängt, ob eine wahre Beobachtung A vorliegt. Im 
Prädiktionsschritt werden der Systemzustand und die Systemkovarianzmatrix 
für den aktuellen Zeitschritt prädiziert, unter Verwendung der Systemmatrix 
A und der Kovarianzatrix des Systemrauschens Cy. Die Prädiktionsgleichun- 
gen sind durch 
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xp = Axe (3.18) 
CPR=A-Ce_-ATH+C, (3.19) 


gegeben, wobei x” | und Cy_, der geschätzte Systemzustand und die ge- 


schatzte Systeme des vorherigen Zeitschrittes gegeben sind. 
Aus der Prädiktion der Systemkovarianzmatrix (3.19) wird die Unsicherheit 
erhöht. Im Fall des CP erhöht sich die Kovarianzmatrix um das Systemrau- 
schen. Eine Verbesserung der Schätzung kann im Filterschritt gewonnen wer- 
den. Hierzu müssen mehrere Gleichungen gelöst werden. Zunächst muss die 
wahre Messung 2 mit der prädizierten Messung aus (3.16) in Beziehung ge- 
bracht werden. Dies geschieht mit Hilfe des Innovationsvektors. Der Innova- 
tionsvektor ist durch 


x p 
ern H: x, (3.20) 
definiert und beschreibt die Abweichung der prädizierten Messung von der 


wahren Beobachtung. Ausgehend vom Messmodell kann die Residualkovari- 
anzmatrix durch 


Sk =H: C} -HT +C, (3.21) 


berechnet werden. Mithilfe der Residualkovarianzmatrix kann das Kalman- 
Gain 


Kr = CP -HT . (S) (3.22) 
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berechnet werden. Das Kalman-Gain führt zu einer verbesserten Schätzung 
des Zustands im Filterschritt. Die Optimalität des Kalman-Gain kann bewie- 
sen und zum Beispiel in [Käl60] nachgelesen werden. Das Kalman-Gain wird 
in den Filtergleichungen verwendet. Anhand der Filtergleichungen werden 
der Systemzustand und die Systemkovarianzmatrix geschätzt. Die Gleichun- 
gen sind durch 


xe =xp+Ky-s, (3.23) 
Ce = (I — Kx - H) - C? (3.24) 


gegeben. Das Resultat der Filtergleichungen wird im Bayes’schen Sinn A- 
posteriori Schätzung genannt. Das Ergebnis der Prädiktionsgleichungen wird 
A-Priori Schätzung genannt. Im Filterschritt wird die aktuelle Information, die 
durch eine konkrete Beobachtung eingeführt wird, in den Zustand aufgenom- 
men. Hierdurch kann eine Verbesserung der Schätzung erlangt werden. Für 
lineare Systeme mit normalverteiltem Rauschen ist das Kalman Filter optimal 
und liefert akkurate Schätzungen des Systemzustands. Ist das Rauschen nicht 
normalverteilt, so ist das Kalman Filter ein einfaches lineares Filter. Liegt je- 
doch ein nichtlineares System- oder Messmodell vor, so geht man von einem 
nichtlinearen System aus. In einem solchen Fall ist das Kalman Filter nicht op- 
timal und es gibt für solche Systeme nichtlineare Erweiterungen des Kalman 
Filters. Eine dieser Erweiterungen ist das Unscented Kalman Filter. 


3.2.4 Unscented Kalman Filter 


Simon Julier und Jeffrey Uhlmann haben in [Jul99] eine nichtlineare Erweite- 
rung des Kalman Filters publiziert. Durch diese Erweiterung konnte das Kal- 
man Filter auf Systeme mit nichtlinearen System- und Messmodellen ange- 
wendet werden. Durch 
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x, =a(x, J+, (3.25) 


Y = WX) + 2, (3.26) 


sind vektorwertige, nichtlineare Funktionen definiert, wobei durch w A ein ad- 
ditives, mittelwertfreies Gauß’sches Rauschen gegeben mit Kovarianzmatrix 
C,, und durch U, ebenso ein additiver, mittelwertfreier Gauß’scher Rausch- 
term mit Kovarianzmatrix C,. Um den Systemzustand prädizieren und filtern 
zu können, schlagen Julier und Uhlmann vor, ein Sampling der Zustandsver- 
teilung vorzunehmen. Dieses Sampling wird als Unscented Transformation 
bezeichnet, siehe [Jul02]. Für die Unscented Transformation wird von einer 
Normalverteilung des Zustands ausgegangen. Der Mittelwert der Normalver- 
teilung ist die aktuelle Zustandsschätzung xz Als Kovarianzmatrix wird die 
geschätzte Kovarianzmatrix des aktuellen Zustands C} verwendet. Aus die- 
ser Verteilung werden skalierte, symmetrische Sigmapunkte entnommen. Für 
einen n-dimensionalen Zustandsvektor ergeben sich 2 - n + 1 Sigmapunkte. 
Zu jedem Sigmapunkt gehört ein Gewicht. Die Sigmapunkte mit den zugehö- 
rigen Gewichten werden durch 


xX = x (3.27) 
X= x + ( (n+x): cf). (3.28) 
t= ( [n+ c), (3.29) 
Wo =x/ (n+x) (3.30) 
W; =1/2: (n+x) (3.31) 
Win = 1/2: (n +x) (3.32) 


bestimmt, wobei durch © /(n+x)- cé) die i-te Zeile der resultierenden Ko- 
i 


varianzmatrix gemeint ist und es gilt x € R. Die Unscented Transformation 
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sieht vor, die Sigmapunkte mit der nichtlinearen Systemfunktion zu transfor- 
mieren, indem die Systemfunktion auf jeden einzelnen Sigmapunkt angewen- 
det wird. Die resultierenden Sigmapunkte repräsentieren die Sigmapunkte der 
prädizierten Verteilung. Die Sigmapunkte können jetzt dazu verwendet wer- 
den, den prädizierten Systemzustand, sowie die prädizierte Kovarianzmatrix 


durch 


2.n 

xe = >) Wi xP (3.33) 
i=0 
2.n T 

CE = Y wi (27 - xf): (2P -28 Cu e39 
i=0 


zu berechnen, wobei die xX? die durch das Systemmodell prädizierten Sigma- 
punkte sind. Für die Filtergleichung müssen die transformierten Sigmapunkte 
erneut durch die Messfunktion in Sigmapunkte der Messungen EA = n(x? ) 
transformiert werden. Die prädizierte Messung wird durch 


2n 
y= Wi A (3.35) 
i=0 


bestimmt, wobei hier die Gewichte, sowie die transformierten Sigmapunkte 
Verwendung finden. Unter Verwendung der prädizierten Messung und der 
transformierten Sigmapunkte wird die Messkovarianzmatrix 


2.n T 
1 2 ..(yP _yp).(yP — yp 
chy 2 (y! yP) (Y yP) +C, (3.36) 


berechnet. Um den Zusammenhang zwischen dem Systemzustand und der 
Messung zu beschreiben, wird die Kreuzkovarianzmatrix erzeugt. Hierzu wer- 
den die prädizierten Sigmapunkte X,, sowie der prädizierte Systemzustand 
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x , als auch die transformierten Sigmapunkte Y und die zugehörige prädi- 
= =F 
zierte Messung y benötigt. Die Kreuzkovarianzmatrix ergibt sich dann durch 


2.n T 
men) - = 
i=0 


Das Kalman-Gain kann jetzt durch Matrixmultiplikation der Kreuzkovarianz- 
matrix mit der Inversen Messkovarianzmatrix berechnet werden. Durch 


Ky = Ch (Chy) (3.38) 


leitet sich das Kalman-Gain her. Der Filterschritt ergibt sich äquivalent zum 
Filterschritt des linearen Kalman Filters. Somit wird die a-posteriori Schät- 
zung durch die Gleichungen 


e— xP lp —yP 
X, = Xk + Ky 9, yP) (3.39) 


=- CP P T 
C? = C? — Ky CO, KT (3.40) 


angegeben. Die Approximation des Systemzustands durch die Sigmapunkte 
weicht die Normalverteilungsannahme des Standard Kalman Filters auf. Hier- 
durch kann eine beliebige Transformation auf den Systemzustand modelliert 
werden und trotzdem kann der Systemzustand durch die ersten beiden zentra- 
len Momente repräsentiert werden. Das Unscented Kalman Filter präsentiert 
eine elegante Lösung für das nichtlineare Filterproblem. 


Das UKF gehört zur Klasse der Lineare Regressions-Kalman-Filter (LRKF). 
Ein weiteres Beispiel für ein nichtlineares, stochastisches Filter ist das Par- 
tikelfilter. Das Partikelfilter unterscheidet sich vom Unscented Kalman Filter 
durch die Verwendung von zufälligen Samples der zugrundeliegenden Vertei- 
lung. Darüber hinaus benötigt das Partikelfilter eine weitaus größere Menge 
an Samplepunkten, um eine ausreichend gute Repräsentation des Systems zu 
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erhalten. Aufgrund seiner Speichereffizienz wird für nichtlineare Filterpro- 
bleme in dieser Arbeit auf das Unscented Kalman Filter zurückgegriffen. 


3.3 Maschinelles Lernen 


Zu den Problemstellungen des maschinellen Lernens gehören Klassifikations-, 
Regressions- und Clusteringprobleme. Die für die Problemstellungen verwen- 
deten Lernverfahren können in zwei Klassen unterteilt werden: überwachte 
und unüberwachte Lernverfahren. Zu den überwachten Lernverfahren gehö- 
ren Klassifikations- und Regressionsverfahren. Clusteringverfahren zählen zu 
den unüberwachten Lernverfahren. Überwachte Lernverfahren werden ein- 
gesetzt, wenn fest definierte Label für die Trainingsdaten vorliegen. Wenn 
keine Label vorliegen können unüberwachte Lernverfahren eingesetzt wer- 
den, um die Trainingsdaten auf Muster zu untersuchen. In der Emotionserken- 
nung können den Emotionen feste Labels zugeordnet werden. Daher werden 
in dieser Arbeit ausschließlich überwachte Lernverfahren angewandt. In die- 
sem Abschnitt werden zwei Klassifikationsverfahren eingeführt, das eXtreme 
Gradient Boost-Verfahren und künstliche neuronale Netze. Im darauffolgenden 
Abschnitt werden Gaußprozesse als Vertreter der Regressionsverfahren de- 
finiert. 


3.3.1 Klassifikationsprobleme 


Das Klassifikationsproblem setzt voraus, dass ein Lernverfahren eine unbe- 
kannte Beobachtung der korrekten Kategorie zuordnen kann. Eine Kategorie 
kann als Klasse bezeichnet werden. Das Verfahren, das für die Zuordnung 
einer unbekannten Beobachtung zur korrekten Klasse trainiert wird, heißt 
Klassifikator. Für das Training eines Klassifikators wird eine Trainingsmen- 
ge benötigt, die Beobachtungen beinhaltet, deren Klassenzuordnung bekannt 
ist. Aus dem Grund, dass die Klassenzuordnungen bekannt sind, spricht man 
vom überwachten Lernen. Beim Training wird die sogenannte Diskriminie- 
rungsfunktion erlernt, sodass spätere Beobachtungen der korrekten Klasse 
zugeordnet werden können. 
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Die Beobachtungen enthalten erklarende Variablen, die eine Zuordnung zur 
korrekten Klasse begiinstigen. Daher wird im maschinellen Lernen vor der 
Aufstellung eines Klassifikationsproblems eine Vorverarbeitung der Beobach- 
tungen durchgeführt. Im Schritt dieser Vorverarbeitung wird die Beobachtung 
auf möglichst unabhängige erklärende Variablen reduziert, um somit einen 
Beobachtungsvektor oder Merkmalsvektor zu erzeugen. Die erklärenden Va- 
riablen oder Merkmale können nominal, ordinal oder numerisch sein. Unter 
nominalen Merkmalen versteht man kategorische Variablen die keiner Ord- 
nung unterliegen, wie zum Beispiel Emotionen (Wut, Furcht, Freude, etc.). 
Ordinale Merkmale sind kategorische Merkmale, die eine Ordnung induzie- 
ren, wie zum Beispiel: lang, mittellang und kurz. Numerische Merkmale hin- 
gegen können ganzzahlige oder reelle Werte sein, d.h. zum Beispielx € N 
oder x E€ R. 


Klassifikationsverfahren sind mathematische Verfahren, die durch Algorith- 
men implementiert werden können, die Merkmalsvektoren auf Klassen abbil- 
den. Ein klassisches statistisches Klassifikationsverfahren ist die logistische 
Regression, die unabhangige erklarende Variablen oder Regressoren auf Klas- 
sen abbildet. Für eine ausführliche Einführung in die logistische Regressi- 
on wird auf Cramer [Cra02] verwiesen. Im maschinellen Lernen gibt es ei- 
ne Vielzahl von Methoden zur Klassifikation angefangen mit Support-Vektor- 
Maschine (SVM) Kivinen et al. [Kiv04], Decision Trees Sonquist et al. [A S64], 
Random Forests Breiman [Bre01], Gradient Boosting Machines von Friedman 
[Fri02] oder kiinstliche neuronale Netze in Haykin [Hay98]. 


Im Folgenden wird das eXtreme Gradient Boosting (XGBoost) Verfahren als 
Erweiterung der Gradient Boosting Machine von Friedman eingeführt und 
künstliches neuronales Netz (KNN) werden als aktuelle Vertreter für leis- 
tungsfähige Klassifikationsverfahren vorgestellt. 


3.3.2 eXtreme Gradient Boosting - XGBoost 
In 2016 veröffentlichten Chen und Guestrin mit [Che16] das eXtreme Gradient 


Boosting Verfahren (XGBoost). Durch XGBoost wurde die Gradient Boosting 
Machine von Friedman [Fri02] mit einem Random Forest von Breiman [Bre01] 


42 


3.3 Maschinelles Lernen 


verbunden. Grundlegend für XGBoost ist die Kombination einzelner Gradient 
Boosted Decision Trees, mit dem Ziel effizient und schnell zu sein. 


Das XGBoost-Verfahren nutzt eine regularisierte Trainingszielfunktion 


L= Opry + DOCS: (3.41) 
i k 


wobei I(j;,y;) eine konvexe Verlustfunktion ist, die den Unterschied zwi- 
schen der Prädiktion f; und dem Ziel y; misst und O(f;,,) ist ein Strafterm, 
der die Komplexität des Baumes fx bestraft. Der Strafterm wird nach Chen et 
al. [Che16] dazu verwendet, um die final gelernten Gewichte zu glätten und 
somit Overfitting zu vermeiden. Der Regularisierungsterm ist durch 


af = T+ 5A: lel (3.42) 


definiert, wobei y und A Regularisierungsparameter sind, T ein diskreter Zeit- 
schritt und durch Ä wird die erste Ableitung nach der Zeit des Regularisie- 
rungsparameters A bezeichnet. Da die regularisierte Zielfunktion (3.41) Funk- 
tionen enthält, wenden Chen et al. eine Approximation an. Sie nutzen ei- 
nen additiven Ansatz, um den aktuellen Baum hinzufügen zu können. Dieser 
Baum wird durch eine Taylorapproximation zweiter Ordnung linearisiert und 
somit in einen dynamischen und konstanten Teil separiert, wodurch sich die 
regularisierte Zielfunktion zu 


LO = fe fie) + hi RE] +9) (3.43) 
i=1 


reduziert [Che16]. Mit t wird der aktuelle Baum f; indiziert und g; ist die 
erste partielle Ableitung der Verlustfunktion nach der Prädiktion des Baumes 
(t — 1). Durch h; wird die zweite partielle Ableitung nach der Prädiktion des 
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vorherigen Baumes (t — 1) bezeichnet. Mit x, wird die Beobachtung zur Ziel- 
variablen y; bezeichnet. 


Chen und Guestrin verwenden (3.43), um einen Score für die aktuelle Baum- 
struktur zu entwickeln. Somit haben sie eine Optimierungsgröße geschaffen, 
die die aktuelle Baumstruktur bewertet. Es entsteht die Möglichkeit, optima- 
le Splits für Blätter abzuleiten und somit eine bessere Baumstruktur zu ge- 
nerieren. Außerdem verwenden Chen und Guestrin weitere Techniken, um 
das Overfitting weitergehend zu verhindern. Dazu gehört Shrinkage, das auf 
Friedman [Fri02] zurückgeht. Durch Shrinkage wird ein Parameter n einge- 
führt, der die Wichtigkeit der Baumstruktur nach jedem Gradientenschritt 
verringert. Somit entsteht die Möglichkeit, dass weitere Bäume den Klassi- 
fikator verbessern können. Chen und Guestrin verwenden ein Subsampling 
von Merkmalen (Spalten). Diese Technik wird auch in Random Forests [Bre01] 
zur Vermeidung von Overfitting eingesetzt. Beim Finden des optimalen Splits 
wird im XGBoost Verfahren davon ausgegangen, dass nicht immer alle Merk- 
male vorhanden sind. Es wird mit dünnbesetzten Merkmalsvektoren gerech- 
net, dieses Vorgehen ermöglicht eine parallele Verarbeitung des Trainings- 
aufwands. 


Der XGBoost Klassifikator vereint viele gute Eigenschaften. Durch eine ge- 
schickte Definition der Optimierungsfunktion mit einem Strafterm für kom- 
plexe Baumstrukturen, wird Overfitting effektiv verhindert. Außerdem wer- 
den gleichzeitig Shrinkage und das Subsampling eingesetzt, um eine weitere 
Maßnahme gegen Overfitting einzusetzen. Durch diese effektive Vermeidung 
von Overfitting kann das Verfahren auch für Datensätze eingesetzt werden, 
die nur über wenige Vertreter aller Klassen verfügen. Diese Eigenschaft er- 
möglicht eine grundlegende Generalisierung für allgemeine Probleme. Zu- 
sätzlich gehört das XGBoost-Verfahren zu den effizientesten Verfahren. Das 
Training der Bäume kann durch Parallelisierungen erheblich beschleunigt 
werden. Der Aufwand für einzelne Prädiktionen ist gering. Das Verfahren 
hat seine Effizienz und Güte in vielen Kaggle-Wettbewerben’* unter Beweis 


* https://www.kaggle.com/dansbecker/xgboost 
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gestellt. Es konnten häufig vergleichbare und bessere Ergebnisse als bei der 
Verwendung von künstlichen neuronalen Netzen (KNN) erreicht werden. 


3.3.3 Künstliche neuronale Netzte (KNN) 


Unter KNN versteht man Netzwerke aus künstlichen Neuronen. Mit neurona- 
len Netzen wird versucht, das menschliche Gehirn zu modellieren. So sollen 
Denk- und Lernprozesse im menschlichen Gehirn besser verstanden werden. 
Es ist bis heute nicht gelungen, ein neuronales Netz zu erschaffen dessen Neu- 
ronenanzahl dem menschlichen Gehirn entspricht. 


Auf Rosenblatt geht die Entwicklung des Perzeptrons [Ros58] zurück. Das 
Perzeptron stellt eine Verknüpfung von parallelen Eingabeneuronen mit Aus- 
gabeneuronen dar. Frank Rosenblatt zeigte, dass er durch den Einsatz von 
zwei Eingabeneuronen und einem Ausgabeneuron die Funktionalität von lo- 
gischen Operatoren wie dem Und sowie dem Oder nachbilden konnte. Wei- 
ter entwickelte Rosenblatt erste Lernprozeduren für neuronale Netze. Auf das 
Beispiel des Perzeptrons gehen die Architekturen von aktuellen neuronalen 
Netzen zurück. 


Im Allgemeinen ist ein KNN aus vernetzten Neuronen konstruiert. In Abbil- 
dung 3.2 ist ein einfaches Multilayer Perceptron dargestellt. 


Die Neuronen eines neuronalen Netzes sind miteinander verknüpft und ge- 
wichtet. Durch eine Lernprozedur werden diese Verknüpfungsgewichte an 
das zu lösende Problem angepasst. Damit ein Neuron entscheiden kann, ob es 
feuert, wird für jedes Neuron eine Aktivierungsfunktion definiert. Mit dieser 
Aktivierungsfunktion wird gesteuert, ab wann das Neuron eine Ausgabe lie- 
fert und wie diese Ausgabe aussieht. Eine typische Aktivierungsfunktion ist 
die Schwellwertfunktion, die nur dann eine Ausgabe abgibt, wenn der Einga- 
bewert einen Schwellwert übertrifft. Durch 


1 wennt>s 
a(t)= | Ö sonst (3.44) 
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hidden layers 


input layer. 


Abbildung 3.2: Exemplarischer Aufbau eines Multilayer Perzeptrons mit einer Eingabe- 
schicht, zwei versteckten (hidden) Schichten und einer Ausgabeschicht. (Bild 
freundlicherweise zur Verfiigung gestellt durch https://github.com/ledell/sldm4- 
h20/blob/master/sldm4-deeplearning-h20.Rmd) 


wird ein Beispiel fiir eine Schwellwertaktivierungsfunktion angegeben, wobei 
s der Schwellwert ist. Durch 


a(t)=c-t (3.45) 


wird die lineare Aktivierungsfunktion definiert, die proportional zum Eingang 
t der Aktivierungsfunktion ist. Mit 


1 


t) = —— 
ate) 1+e- 


(3.46) 
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wird die Sigmoid-Aktivierungsfunktion eingeführt. Die Sigmoid-Funktion ist 
eine glatte, nichtlineare Schrittfunktion. Sie wird in der Logistischen Regressi- 
onals Klassifikationsfunktion verwendet. Um den Koordinatenursprung weist 
die Sigmoid-Funktion eine starke Steilheit auf, sodass in diesem Bereich des 
Definitionsbereichs bereits kleine Änderungen zu signifikanten Änderungen 
in der Ausgabe der Aktivierungsfunktion führen. Für t > —oo konvergiert 
die Sigmoid-Funktion sehr schnell gegen 0 und für t — oo konvergiert die 
Funktion sehr schnell gegen 1. Somit reagiert die Aktivierungsfunktion wei- 
ter entfernt vom Mittelpunkt nur geringfügig bis gar nicht in der Ausgabe. 
Durch diese Eigenschaft ist die Sigmoid Funktion hervorragend für die Klas- 
sifikation geeignet. Die Ausgabe ist zwischen 0 und 1 begrenzt und diese Funk- 
tion ist gut für die Kombination mehrerer Schichten von Neuronen geeignet. 
Die Konvergenzeigenschaften an den Rändern des Definitionsbereichs führen 
dazu, dass Gradienten verschwinden können. Die Eigenschaft der verschwin- 
denden Gradienten ist unerwünscht im Bereich der künstlichen neuronalen 
Netze. Daher wurden weitere Aktivierungsfunktionen entwickelt, um diese 
Eigenschaft zu umgehen. Durch 


2 


a(t) = tanh (t) = Ipe X 


(3.47) 
wird die tanh (t) Aktivierungsfunktion definiert. Sie ist der Sigmoid-Funktion 
ähnlich, da tanh(x) = 2 - sigmoid(2x) — 1 gilt. Im Gegensatz zur Sigmoid- 
Funktion liefert die Tanh-Funktion Werte im Intervall [—1,1]. Die Funktion ist 
zudem steiler als die Sigmoid Funktion. Allerdings geht auch für diese Funkti- 
on der Gradient für t > œ gegen 0. Die Ableitung der tanh-Funktion ist durch 


een (3.48) 
dt 

gegeben, wobei diese Funktion für t — oo den Grenzwert 0 besitzt, dennoch 

weißt die Aktivierungsfunktion stabilere Gradienten an ihren Rändern auf. 

Hierdurch wird die tanh-Aktivierungsfunktion häufig in aktuellen neurona- 

len Netzen verwendet. 
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Eine weitere aktuelle Aktivierungsfunktion ist durch 


a(t) = max (0, t) (3.49) 


gegeben. Diese Funktion heißt Rectified Linear Unit Function (ReLU). Auf den 
ersten Blick ist die ReLU Funktion einer linearen Funktion sehr ahnlich, je- 
doch feuert diese Funktion nur, wenn der Eingabewert größer 0 ist. Diese 
Funktion eignet sich insbesondere, wenn es viele Eingaben gibt die 0 oder klei- 
ner sind. Funktionen wie die Sigmoid- oder die Tanh-Funktion feuern auch 
für diese Werte. Die ReLU Funktion ist gerade dann interessant, wenn ein 
dünn besetzter Eingang zu erwarten ist. Die ReLU Funktion ist jedoch nicht 
ohne Nachteil: wegen des Phänomens der sterbenden Aktivierungsfunktion. 
Für Eingaben kleiner gleich 0 wird der Gradient 0 und wird im Gradientenab- 
stieg abgeschaltet. Dieses Phänomen heißt sterbende Aktivierungsfunktion. 
Die Funktion wird häufig in neuronalen Netzen verwendet. 


Ein Neuron wird durch einen Eingabevektor x und eine Konstante 1 ange- 
regt. Jedem Element des Eingabevektors wird ein Gewicht aus dem Vektor w 
zugeordnet. Der Konstanten 1 wird das Gewicht b, genannt Bias, zugeordnet. 
Durch Anwendung der Aktivierungsfunktion a (-) wird der Ausgabevektor y 
generiert. Der funktionale Zusammenhang ergibt sich durch = 


a(w?-x+1-b)=y. (3.50) 


Jedes KNN besitzt eine feste Anzahl von Schichten, die miteinander verknüpft 
sind. Die Anzahl dieser Schichten kann sich jedoch zwischen verschiedenen 
KNNs unterscheiden. Die einfachste Schichtenarchitektur ist durch das Mul- 
tilayer Perceptron (MLP) gegeben, siehe Abbildung 3.2. Im MLP enthält je- 
de Schicht eine Vielzahl von parallelen Neuronen. In modernen künstlichen 
neuronalen Netzen werden komplexere Schichtenarchitekturen verwendet. 
Zu den beliebtesten Architekturen gehören Convolutional Neural Networks 
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(CNN), Long short-term Memory (LSTM), oder Rekurrente Neuronale Net- 
ze (RNN). Diese Aufzählung ist ein kleiner Ausschnitt der vorhandenen Va- 
rianten und nicht vollständig. Aufgrund der Verwendung von CNNs in der 
Analyse von Bilddaten befasst sich dieses Kapitel mit CNNs. Für weitere Ar- 
chitekturen wird auf die einschlägige Literatur verwiesen, zum Beispiel auf 
Haykin [Hay99]. Eine beispielhafte CNN-Architektur ist schematisch in Ab- 
bildung 3.3 dargestellt. 


Input Convolutional Pooling Fully Connected Output 
Layer Layer Layer Layer 
| 


Abbildung 3.3: Beispiel einer CNN-Architektur mit unterschiedlichen Schichten aus Peng et al. 
[Pen16]. 


In Abbildung 3.3 ist eine beispielhafte CNN-Architektur dargestellt. Das Bild 
stammt aus der Arbeit von Peng et al. [Pen16], in der es darum geht mit Hilfe 
eines CNN Gesichtserkennung in Bildern im nahen Infrarotspektrum zu er- 
kennen. Im Bild erkennt man, dass ein CNN typischerweise aus einer Einga- 
beschicht gefolgt von einer Faltungsschicht (engl. Convolutional Layer) und 
einer Poolingschicht (engl. Pooling-Layer), die sich wie in der Grafik angedeu- 
tet wiederholen können. Im Anschluss daran folgt eine Dichteschicht (engl. 
Fully-Connected-Layer), die die Ergebnisse der vorherigen Schichten in einem 
Vektor zusammenfasst, sodass in der Ausgabeschicht das Ergebnis ausgege- 
ben werden kann. 


Mit einer Faltungsschicht extrahiert ein CNN Merkmale aus den Bilddaten. 
Die angeschlossene Poolingschicht modelliert örtliche Zusammenhänge zwi- 
schen den Merkmalen. Mit der Dichteschicht werden die extrahierten Merk- 
male in einem Vektor zusammengefasst. Mit der Ausgabeschicht wird das Er- 
gebnis des Netzes formatiert und in der gewünschten Form ausgegeben. Mit 
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der Ausgabeschicht wird zum Beispiel garantiert, dass ein CNN fiir ein sechs 
Klassenproblem auch nur sechs Ausgabeneuronen besitzt. 


Im Folgenden wird auf den generellen Aufbau eines CNN eingegangen. Ein 
minimales CNN besteht aus drei Schichten: einer Eingabeschicht, einer Merk- 
malsschicht bestehend aus einer Faltungs- und Poolingschicht und einer Dich- 
teschicht mit Ausgabeschicht. 


Die Faltungsschicht ist die Eingabeschicht fiir ein CNN. Diese Eingabeschicht 
ist speziell fiir zwei- bis dreidimensionale Eingabedaten entwickelt worden, 
wie zum Beispiel Bilddaten oder Bildsequenzen. Die Faltungsschicht ist ei- 
nem biologischen rezeptivem Feld nachempfunden. Jedes Neuron wird an- 
hand der Faltung der lokalen Umgebung eines Pixels angesprochen. Dazu 
wird ein Faltungsfilter über die einzelnen Pixel der Eingabe geschoben. Als 
Aktivierungsfunktion können beliebige Funktionen, wie oben beschrieben, 
eingesetzt werden. Die Faltungsschicht dient der Extraktion von Merkmalen 
aus den Eingabedaten. Mit der Poolingschicht werden Informationen zusam- 
mengefasst, da nicht jedes Detail für die Erkennung von Objekten wichtig ist. 
Zum Beispiel werden 2x2 Umgebungen zu einem Punkt zusammengefasst. 
Weit verbreitet ist das Max-Pooling. Hier wird das Maximum der 2x2 Um- 
gebung weitergegeben. Dieses Vorgehen verringert den Speicherbedarf des 
CNN und beschleunigt die weitere Verarbeitung der Merkmale. Durch das 
Pooling wird Overfitting verhindert. Eine weitere Möglichkeit Overfitting in 
CNNs zu verhindern ist die Verwendung von sogenannten Dropout Schich- 
ten. In Dropout Schichten kann ein Anteil einer vorherigen Schicht an der 
Weitergabe an die nächste Schicht verhindert werden. Damit gibt es meh- 
rere Möglichkeiten Overfitting in Neuronalen Netzen zu verhindern oder zu 
vermindern. Faltungs- und Poolingschichten treten in einem CNN immer ge- 
meinsam auf. Spricht man in einem CNN von mehreren Schichten, so ist meist 
eine Wiederholung von mehreren Faltungs- und Poolingschichten gemeint. 
Auf die Faltungs- und Poolingschichten folgt im CNN als letztes eine Dich- 
teschicht oder voll vernetzte Schicht (engl. Fully-Connected-Layer). Mit die- 
ser voll vernetzten Schicht werden die extrahierten Informationen aus den 
vorherigen Schichten in einem Vektor zusammengefasst, bevor diese in die 
Ausgabeschicht weitergleitet werden. 
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Für das Training eines KNN wird eine Kostenfunktion eingesetzt. Eine häufig 
verwendete Kostenfunktion ist der mittlere, quadratische Fehler 


1 £ 2 
zn Y Oro, (3.51) 
i=1 


wobei n der Anzahl der Dimensionen der Ausgabeschicht entspricht, die y; 
sind die Einzelelemente des Ausgabevektors y für das überwachte Lernpro- 
blem und die 0; sind die Einzelausgaben der Ausgabeschicht. Im ersten Schritt 
des Trainings wird mit den initialen Gewichten des Netzes ein Bild durch das 
Netz propagiert. Das entspricht einer Pradiktion durch das Netz. Man spricht 
bei der Pradiktion durch das Netz auch von einer Forwardpropagation. Durch 
die initialen Gewichte ist zu erwarten, dass der initiale Fehler erhöht ist. Ziel 
der Backpropagation ist die Rückführung dieses Fehlers zur nachträglichen 
Anpassung der Gewichte zur Minimierung des Fehlers. Um den Fehler durch 
die falschen Gewichte zu minimieren, erfolgt die Anpassung der Gewichte 
durch einen Gradientenabstieg über mehrere Schritte. Die globale Optimie- 
rung dieses Fehlers ist schwierig, da eine Vielzahl von Gewichten zu opti- 
mieren ist. Aus diesem Grund kann das Training eines komplexen CNN sehr 
viel Zeit in Anspruch nehmen. In der Backrpopagation Prozedur wird der 
entstandene Fehler zu den entsprechenden Neuronen zurückgeführt und die 
Gewichte werden entgegen des Gradientenanstiegs der Fehlerfunktion ange- 
passt. Hierdurch wird der Fehler schrittweise reduziert und das CNN wird an 
seinen dezidierten Zweck angepasst. 


In dieser Arbeit kommt das VGG-16 Netz von Simonyan und Zisserman 
[Sim14] zum Einsatz. Die verwendete Implementierung des VGG-16 Netzes 
entstammt der Keras Deep Learning Bibliothek. Für dieses Netz müssen 
Eingabebilder auf eine quadratische Größe von 224 x 224 Pixeln verwendet 
werden. Die Bilder müssen drei Farbkanäle besitzen mit RGB-Werten. Das 
Netz verwendet 13 Faltungsschichten mit 3x3 Faltungsfiltern, von denen 
die meisten Faltungsschichten zum Erhalt der örtlichen Zusammenhänge 
von Max-Poolingschichten mit 2x2-Filtern gefolgt werden. Im Anschluss 
schließen sich drei Dichteschichten an. Die Ausgabe erfolgt über eine 
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Softmax-Ausgabeschicht. Aus der Anzahl der Schichten ergibt sich eine 
Anzahl von 138 Millionen Gewichten. 


Um den Aufwand des Trainings so gering wie möglich zu halten wurde in 
dieser Arbeit ein Vorinitialisiertes Netz verwendet. Für die Vorinitialisierung 
wurden die Gewichte aus dem Imagenet Datensatz von Deng et al. [Den09] 
verwendet. Die genauen Vorverarbeitungsschritte für dieses Netz finden sich 
in Kapitel 6. 


3.4 Gaußprozess 


Gaußprozesse gehören zur Klasse der stochastischen Prozesse. Aufgrund des 
Aufbaus können Gaußprozesse als Verteilung über dem Funktionenraum 
betrachtet werden. Grundsätzlich besteht ein Gaußprozess aus normalver- 
teilten Zufallsvariablen. Jede finite Untermenge dieser Zufallsvariablen in 
einem Gaußprozess besitzt eine normalverteilte Verbunddichte [Ras06]. 
Daraus ergibt sich die nützliche Eigenschaft, dass jede marginale Verteilung 
eines Gaußprozesses ebenfalls wieder normalverteilt ist. Diese nützliche 
Eigenschaft macht den Gaußprozess zu einem mächtigen Werkzeug im 
maschinellen Lernen. Insbesondere werden Gaußprozesse für Regressions- 
probleme eingesetzt. Um einen Gaußprozess (GP) vollständig zu definieren, 
genügt die Angabe einer Mittelwert- und Kovarianzfunktion. Durch 


m(x) = E[f(x)] (3.52) 
k(x,x") = EL(f(x) — mx) (FR) — mx’) , (3.53) 


werden die Mittelwertfunktion m(-) als Erwartungswert eines reellen Pro- 
zesses f(x) und die Kovarianzfunktion k(-,-) als Kovarianzmatrix tiber dem 
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reellen Prozess f(x) definiert. Unter Verwendung dieser Definition kann die 
Verteilung der Funktionen f(x) als Gaußprozess durch 


f(x) ~ GP (m(x), k(x,x')) (3.54) 


angegeben werden. Diese Schreibweise wird als Funktionsraumschreibwei- 
se [Ras06] bezeichnet. Mit den Kovarianz- und Mittelwertfunktionen können 
Eigenschaften der zu schätzenden Funktion beeinflusst werden, wie zum Bei- 
spiel Glattheit und Stationarität. 


Sei eine beliebige Funktion 


y=g(x)+e (3.55) 


gegeben, wobei g(x) eine nichtlineare Funktion und x typischerweise ein Vek- 
tor ist. Hier wird ein Skalar für x verwendet und e ist ein mittelwertfreier, 
normalverteilter Rauschterm mit € ~ N(0, 0?). Unter der Verwendung von 
Trainingsdaten D = {(x1, y1), (X%2,¥2),-°+, (Xn, Yn)} kann ein Gaußprozess 
verwendet werden, um die unbekannte Funktion g(x) zu schätzen. Die Trai- 
ningsdaten beinhalten Wertepaare, die als Messung von der zu approximie- 
renden Funktion bestimmt werden. Die Trainingsdaten erlauben die Verwen- 
dung eines überwachten Lernverfahrens. Bei einem Gaußprozess sei darauf 
verwiesen, dass es sich um einen sogenannten Lazylearner handelt. Die Trai- 
ningsdaten werden erst bei der Prädiktion verwendet. Der trainierte GP für 
g(x) bestimmt eine posteriore Verteilung 


y ~ N (Uy, 95) (3.56) 


für die resultierenden Funktionswerte. Die Funktionswerte können basierend 
auf einer Menge von x-Werten abgeleitet werden. In Abbildung 3.4 sind 
sechs Trainingspunkte dargestellt. Die Trainingspunkte wurden zufällig 
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aus einer Standardnormalverteilung ausgewählt. Für die Prädiktion wurden 
100 x-Werte äquidistant im Intervall [min(x"*"), max(x"")] gesammelt. 
Der GP wurde verwendet, um den Mittelwert und die Standardabweichung 
an jeder Stelle x des Gaußprozesses zu ermitteln. In der Abbildung sind 
die Mittelwerte für jedes x des Gaußprozesses, sowie die 20-Grenze der 


Schätzung abgebildet. 


-1.04 


=1.54 


Abbildung 3.4: Gaußprozess basierend auf sechs Trainingspunkten. Prädiktion auf 100 äquidi- 
stanten X-Werten unter Angabe des Mittelwertes und der 2 - 0-Grenze. 


In der Abbildung zeigt sich, dass die Unsicherheit nicht fiir jeden Testwert 
konstant ist. Die Unsicherheit ist kleiner innerhalb des Bereichs, der durch 
die Trainingsdaten gegeben ist. An den Randern steigt die Unsicherheit an, je 
weiter sich die Eingabedaten von den Trainingsdaten entfernen. Durch eine 
geschickte Wahl von Trainingsdaten kann die Qualität des Gaußprozesses be- 
einflusst werden und die Unsicherheit der Schätzung verringert werden. Die 
durch den Mittelwert gegebene Funktionskurve scheint glatt zu sein. Für die- 
ses Beispiel wurde als Kovarianzfunktion eine Radiale-Basis-Funktion (RBF) 
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verwendet. Es handelt sich um eine stationäre Kovarianzfunktion. Unter Sta- 
tionarität versteht man die Annahme, dass ein stochastischer Prozess zeitin- 
variant ist. Man geht also davon aus, dass zu jedem Zeitpunkt der Mittelwert 
und die Varianz unabhängig von der zeitlichen Entwicklung sind. Diese Ei- 
genschaften wie Stationarität und Glattheit können durch die Wahl der Ko- 
varianzfunktion des GP beeinflusst werden. Aus diesem Grund werden im 
Folgenden unterschiedliche Kovarianzfunktionen eingeführt. 


3.4.1 Kovarianzfunktionen 


Betrachtet man eine zu schätzende Funktion, werden Punkte, die nahe bei- 
einander liegen, ähnliche Funktionswerte aufweisen. Es ist wichtig, die Nä- 
he oder Ähnlichkeit von Eingabewerten beurteilen zu können. Die Kovari- 
anzfunktion eines Gaußprozesses hat genau diese Aufgabe. Die Funktion be- 
inhaltet eine Beurteilung der Ähnlichkeit zwischen Eingabewerten [Ras06]. 
Rasmussen [Ras06] schränkt ein, dass nicht jede Funktion, die den Abstand 
zwischen zwei Eingabewerten x und x’ enthält, eine Kovarianzfunktion ist. 


Um eine gültige Kovarianzfunktion zu erhalten, muss das Ergebnis positiv- 
semidefinit sein. Weiter kann eine Kovarianzfunktion als stationär bezeichnet 
werden, wenn die Funktion nur vom Abstand x —x’ abhängt. Hängt die Funk- 
tion strenger von |x — x’| ab, so spricht man von einer isotropen, stationären 
Kovarianzfunktion. Hängt die Kovarianzfunktion vom Skalarprodukt x - x’ 
ab, so spricht man von einer Skalarprodukt Kovarianzfunktion. Rasmussen 
behandelt in [Ras06] eine weitere Eigenschaft für die Kovarianzfunktion. Er 
betont, dass die Funktion Mean-Squared-Continuous (MS-kontinuierlich) ist. 
Das bedeutet für eine Kovarianzfunktion f(x) an einer Stelle x, muss 


E [If C) - FI] > 0 (3.57) 


gelten, für |x, — x,| > Omit k — oo. Für eine genauere Behandlung der 
MS-Kontinuitätseigenschaft sei auf Rasmussen [Ras06]verwiesen. 
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3.4.1.1 Squared-Exponential-Kernel 


Die Squared-Exponential (SE) Kovarianzfunktion ist eine stationäre Kovari- 


anzfunktion. Sie hängt nur von r = |x — x’| ab. Die SE-Kovarianzfunktion 
ist durch 
r2 
ksg (r) = exp (5) (3.58) 


definiert, wobei der Parameter | als charakteristische Langenskalierung 
bezeichnet wird. Der SE-Kernel gehört zu den Radial-Basis-Funktion- 
Kovarianzfunktionen. Eine praktische Eigenschaft dieser Kovarianzfunktion 
ist die unendliche Differenzierbarkeit, wodurch dieser Kernel als sehr glatt 
gilt [Ras06]. Nach Rasmussen gibt es Argumente dafür, dass diese übermäßi- 
ge Glattheit sich für manche physikalischen Prozesse nicht eignet, weshalb 
häufig auf die Kovarianzfunktionen der Matern-Klasse zurückgegriffen wird. 


3.4.1.2 Matern-Klasse 


Die Matern-Klasse der Kovarianzfunktionen ist durch 


kMatern (r) = =. 7) K, (4) (3.59) 


gegeben, mit den Parametern v, l und der modifizierten Besselfunktion 
K,. Lässt man v gegen unendlich gehen, so ergibt sich KMatern zur SE- 
Kovarianzfunktion. Für die Differenzierbarkeit der Matern-Funktion muss 
v < k gelten. Dann ist die Funktion k-fach differenzierbar. Die Matérn- 
Funktion vereinfacht sich, wenn v = p+ : gilt und p eine nichtnegative 
Ganzzahl ist. In diesem Fall vereinfacht sich kyatern zu dem Produkt einer 
Exponentialfunktion und einem Polynom der Ordnung p. Für eine genaue 
Beschreibung sei auf [Ras06] verwiesen. Häufig verwendete Werte für v sind 
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3 5 = 1 š 5 : š = DX 
- und -. Für v = - wird die Matérn-Funktion sehr rau und für v > = nicht 


mehr gut zu parametrisieren [Ras06]. 


Durch den SE-Kernel und die Matern-Funktion wurden stationäre Kovarianz- 
funktionen beschrieben. Die Liste an Kovarianzfunktionen ist nicht vollstän- 
dig, in Rasmussen [Ras06] werden weitere Kernel-Methoden betrachtet. Zur 
Vervollständigung der Behandlung wird im Folgenden eine nicht-stationäre 


Kovarianzfunktion betrachtet. 


3.4.1.3 Dot-Produkt-Kovarianzfunktion 


Zu den Dot-Produkt-Kovarianzfunktionen zählen die Kernel-Funktionen, die 
durch 


k(x,x') = 08 +x. x' (3.60) 


definiert sind, wobei aĝ ein Parameter ist. Die Gleichung ist ein Resultat der 
linearen Regression. Für den Fall, dass of = 0 gilt, spricht man von einem 
homogenen linearen Kernel. Für 0% # 0 ist von inhomogenen linearen Kern- 
elfunktionen die Rede. Unter Verwendung einer allgemeinen Kovarianzfunk- 
tion K, kann die lineare Kernel-Funktion zu 


k(x,x’) = o§ +x -Kp x (3.61) 


verallgemeinert werden. 


Der lineare Kernel ist eine einfache, nichtstationäre Kovarianzfunktion. Ei- 
ne weitaus komplexere, nichtstationäre Kovarianzfunktion ist die neuronale 
Netz-Kovarianzfunktion, die in Rasmussen [Ras06] nachgelesen werden kann. 


Neben den Kovarianzfunktionen kommen weiter Mittelwertfunktionen 
zum Einsatz. Eine häufig Verwendete Mittelwertfunktion, ist die Null- 
Mittelwertfunkion. Diese Mittelwertfunktion gibt für jede Eingabe den Wert 
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Null zurück. Weitere Mittelwertfunktionen sind die konstanten Mittelwert- 
funktionen, die immer einen konstanten Wert zurückliefern, wovon die 
Nullmittelwertfunktion ein Spezialfall ist. In Abhängigkeit von dem be- 
trachteten Problem, das mit einem Gaußprozess gelöst werden soll, kommt 
häufig die Nullmittelwertfunktion zum Einsatz. In dieser Arbeit wird ein 
Gaußprozess dazu verwendet, um eine Abbildung von einem Emotionsde- 
skriptor basierend auf Gesichtsbildern in den Valenz-Erregungs-Raum zu 
schätzen. Hierbei kommt die Nullmittelwertfunktion zusammen mit der 
Radial-Basis-Kovarianzfunktion zum Einsatz. 
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4 Tracking von Punkt- und 
ausgedehnten Objekten 


Tracking bezeichnet eine Methode, um Objekte automatisch zu verfolgen. Un- 
ter Tracking kann man die Verfolgung von bewegten Objekten verstehen, als 
auch von internen Zuständen des Objekts. Vertreter von bewegten Objekten 
sind beispielsweise Fahrzeuge oder Flugzeuge. Vertreter interner Zustände 
können Maschinenparameter oder die menschliche Emotion sein. Um ein be- 
wegtes Objekt wie ein Flugzeug zu tracken, werden Informationen über den 
aktuellen Aufenthaltsort des Flugzeugs benötigt. Liegen solche Positionsin- 
formationen vor, spricht man von einem direkt beobachtbaren Zustand. Im 
Fall von internen Zuständen wie der menschlichen Emotion, kann diese nur 
indirekt beobachtet werden, zum Beispiel durch das Vorliegen eines spezifi- 
schen Gesichtsausdrucks. 


Damit diese unterschiedlichen Objekte getrackt werden können, muss das 
zu verfolgende Objekt durch einen Systemzustand repräsentiert werden. 
Dieser Systemzustand wird durch die Systemfunktion in einen konsekuti- 
ven Zustand überführt. Das Zusammenspiel des Systemzustands und einer 
Systemfunktion wird als Systemmodell bezeichnet. Im allgemeinen wird 
davon ausgegangen, dass der Systemzustand sich mit fortschreitender Zeit 
verändert. Zur Vereinfachung der zeitlichen Veränderung wird im Tracking 
von einem zeitdiskreten Modell ausgegangen. Da jede Modellierung einem 
stochastischen Fehler unterliegt, wird dieser Umstand durch einen additiven, 
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normalverteilten Rauschterm modelliert. Das zeitdiskrete Systemmodell 
wird durch 


Xpy =F (X,) +2, od) 


repräsentiert, wobei f(-) eine beliebige Funktion, œ, eine gaußverteilte 


Rauschvariable und x, der Systemzustand zum Zeitpunkt k sind. Die Model- 
lierung lässt sowohl lineare als auch nichtlineare Systemfunktionen zu. Die 
Auswahl der Funktion hängt maßgeblich von dem zu modellierenden Modell 
ab. Wird eine lineare Veränderung des Systemzustands erwartet, so kann eine 
lineare Funktion gewählt werden. Geht man von nichtlinearen Änderungen 
des Systemzustands aus, ist eine nichtlineare Systemfunktion zu wählen. 
Ein Beispiel für ein lineares Systemmodell ist in Abschnitt 3.2 beschrieben. 
Ein einfaches Beispiel für ein nichtlineares System ist die Wurfparabel. Die 
Wurfparabel ergibt sich beim schiefen Wurf eines Balls oder beliebigen 
Festkörpers. Die vektorielle Systemfunktion für die Wurfparabel ist durch 


x(t) Vo ` t - cos (8) 
rO=( 5% )-( vg -t-sin(B)— Ë- P -i 


gegeben, wobei vo die Geschwindigkeit während des Abwurfs, 8 der Abwurf- 
winkel und g die Erdbeschleunigung sind. 


Durch das Systemmodell (4.1) wird der Systemzustand x, zum Zeitpunkt k in 
den nächsten Zeitpunkt x ki überführt. Das Systemmodell modelliert das au- 
tonome Verhalten des zu beschreibenden Objekts. In einem Trackingmodell 
entspricht das der Beschreibung der angenommenen Bewegung des zu beob- 
achtenden Objekts. Der Systemzustand ist die minimale vollständige Reprä- 
sentation des Systems. Man unterscheidet in Trackingmodellen zwischen di- 
rekt und indirekt beobachtbaren Zuständen. Ein direkt beobachtbarer Zustand 
enthält nur Systemkomponenten, die direkt durch ein Messsystem beobach- 
tet werden können. Indirekt beobachtbare Zustände können nur durch einen 
funktionalen Zusammenhang auf den Systemzustand zurückgeführt werden. 
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b ae pi 


Objekt 
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Abbildung 4.1: Allgemeines Trackingmodell zur Verdeutlichung des Zusammenhangs zwischen 
dem beobachteten Objekt und dem Tracker. 


Dieser funktionale Zusammenhang wird durch die Messabbildung definiert. 
Das Messmodell wird durch 


I h (x,) +, (4.3) 


definiert. Die Messung Y ergibt sich durch Anwendung des Messmodells h (-) 
auf den Systemzustand und einem additiven, gaußverteilten Rauschterm v, . 
Durch den Rauschterm werden nichtsystematische Messunsicherheiten mo- 
delliert. Mit der Definition der Messabbildung (4.3) sind alle Komponenten des 
Trackingmodells beschrieben. Das Zusammenspiel der Einzelkomponenten, 
sowie aller möglichen Einflüsse auf das Trackingsystem sind in Abbildung 


4.1 dargestellt. 


Abbildung 4.1 zeigt ein Trackingmodell, dass in einen Prädiktions- und Filter- 
schritt aufgeteilt ist. Im Prädiktionsschritt wird das Systemmodell verwendet, 
um den aktuellen Zustand x?, CP des beobachteten Systems zu prädizieren. 
Im Filterschritt wird die Messfunktion verwendet, um den modellierten Zu- 
stand auf eine Messung des beobachteten Objekts abzubilden. Im Filterschritt 
wird ebenso die aktuelle Messung J verwendet. Durch die Verwendung der 
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Messung des Originalsystems wird im Tracker basierend auf dem prädizier- 
ten Zustand eine verbesserte Schätzung x°, C? des Systemzustands bestimmt. 
Die Kovarianzmatrizen C,, und C, charakterisieren das System- und Mess- 
rauschen fiir das System- und Messmodell des Trackers. 


Tracking kann auf verschiedene dynamische Systeme angwendet werden. Ein 
klassischer Anwendungsfall ist das Tracking von Flugzeugen, wobei hier ein 
dynamisches Objekt beobachtet wird. 


Ein weiterer Anwendungsfall ist das statische Tracking. Beim statischen Tra- 
cking werden zum Beispiel Parameter einer Kamera getrackt, um so Aussagen 
über die Aufnahmen zu treffen. Aus diesem Grund wird in Abschnit 4.1 ein 
Tracker vorgestellt, der dazu dient, Bild-zu-Bild-Transformationen in einer 
Bildfolge zu schätzen. 


Abschnitt 4.2 behandelt ein auf Multilaterationsmessungen basierendes Flug- 
zeugtracking. Das Flugzeugtracking gehört zur Klasse der Punktzieltracker, 
bei denen ein Objekt als Punkt modelliert wird. Eine Modellierung als Punkt- 
ziel ist nur dann nützlich, wenn keine weiteren Analysen des beobachteten 
Objekts notwendig sind. In einem solchen Fall kann die Gestalt des Objekts 
wichtig sein. 


Ein Beispiel hierfür ist das Tracking der Iris des menschlichen Auges. Aus 
der Position und Gestalt der Iris lassen sich verschiedene Informationen ab- 
leiten. Zum Beispiel kann der Blickwinkel geschätzt werden, zum Anderen 
kann auch der Öffnungswinkel des Auges bestimmt werden, indem der An- 
teil der sichtbaren Iris, eingerahmt von den Augenlidern betrachtet wird. 


Um die Gestalt eines Objekts tracken zu können, wird die Technik des 
Trackings ausgedehnter Objekte eingesetzt. In Abschnitt 4.3 wird das Tra- 
cking ausgedehnter Objekte am Beispiel eines Iris-Trackers eingeführt. Ein 
weiterer Anwendungsfall für das Tracking ausgedehnter Objekte wird im 
Abschnitt 4.4.3 diskutiert. Hier wird das Tracking des Gesichts untersucht, 
wobei hier die Notwendigkeit von Nebenbedingungen für das Gesichtsmo- 
dell herausgearbeitet wird. 
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4.1 Statisches Tracking: 
Homographieschätzung zur 
Bildregistrierung 


Für ein internes Projekt des Fraunhofer IOSB wurde ein statisches Tracking- 
verfahren entwickelt, mit dem sogenannte Homographien für Bildsequenzen 
geschätzt werden können. Homographien beschreiben eine projektive Abbil- 
dung zwischen zwei Bildern einer Bildsequenz, in der eine Bewegung der Ka- 
mera durchgeführt wurde. Das heißt, eine Homographie setzt einen Punkt im 
Ursprungsbild mit einem korrespondierenden Punkt im Zielbild in Zusam- 
menhang. Somit ist eine Grundvoraussetzung für die Berechnung der Ho- 
mographie eine ausreichend große Menge von Korrespondenzen zwischen 
Punkten, die sowohl im Ursprungsbild als auch im Zielbild vorhanden sind. 
Das Finden solcher Punktkorrespondenzen ist ein fundamentales Problem der 
Bildverarbeitung und findet große Beachtung im Zusammenhang mit der Ver- 
arbeitung von Stereobildern oder des optischen Flusses. 


Im Zusammenhang mit dem internen Projekt des Fraunhofer IOSB tritt dieses 
Korrespondenzproblem im Zusammenhang mit Infrarotsequenzen auf. Die 
im Projekt verwendeten Infrarotsequenzen wurden mit Hilfe des Deutschen 
Zentrums für Luft- und Raumfahrt (DLR) in Braunschweig angefertigt. Dazu 
wurde eine mit Infrarot-Kameras bestückte Messkugel an einem Helikopter 
angebracht. Mit Hilfe des Helikopters wurden Anflüge auf Objekte durch- 
geführt, die in einer Waldumgebung aufgestellt wurden. Der hierdurch ent- 
stehende Nachteil resultiert in Bildern mit geringem Kontrast und somit er- 
höhter Schwierigkeit Punktkorrespondenzen zu finden. Aus diesem Grund 
wurde ein Verfahren entwickelt, mit dem bekannte GPS-Koordinaten in das 
Bild projiziert und somit Punktkorrespondenzen festgelegt werden konnten. 
Die Schwierigkeit bestand darin, eine Abbildung zu finden, mit der sich GPS- 
Koordinaten in das Bildkoordinatensystem abbilden lassen. Zur Verdeutli- 
chung der Kontrastsituation in den verwendeten Bilddaten zeigt Abbildung 
4.2 das erste und letzte Bild eines Anflugszenarios. In der Mitte des ersten Bil- 
des ist mit geringem Kontrast die Fläche (Schneise im Wald) im letzten Bild 
zu sehen, auf dem sich die gesuchten Objekte finden. 
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(a) Erstes Frame (b) Letztes Frame 


Abbildung 4.2: Detailvergleich zwischen dem ersten Frame (a) und dem letzten Frame (b). Die 
Markierungen zeigen besondere Punkte, die zur Registrierung verwendet wer- 
den. 


Betrachtet man Abbildung 4.2, erkennt man, dass Objekte, die im ersten Bild 
als Punktziel reprasentiert werden im letzten Bild als ausgedehntes Objekt zu 
sehen sind. Das heißt, das aus einem einzigen Pixel für ein Objekt ein ganzer 
Pixelhaufen entstanden ist. Ebenso lässt sich erkennen, dass die Kontrastver- 
hältnisse sehr stark vom Hintergrund des Objekts und dem Detailgrad der 
betrachteten Szene abhängen. Aus diesem Grund werden die Homographien 
nur zwischen aufeinanderfolgenden Bildern der Bildsequenz berechnet, um 
solche Effekte abzufangen und aufzuweichen. 


In der klassischen Schätzung von Homographien werden sehr viele Kor- 
respondenzkandidaten ermittelt mit Interestpoint Detektoren, wie dem 
Förstner-Filter von Förstner in [Fös87]. Modernere Verfahren wie das von 
Lowe in [Low99] vorgestellte SIFT Verfahren erstellen hochdimensionale De- 
skriptorvektoren für Korrespondenzkandidaten, um ein genaueres Matching 
der Punkte zu ermöglichen. Die Berechnung der Homographie erfolgt dann 
über wohlbekannte Methoden, die beispielsweise in Hartley et al. [Har04] 
nachgelesen werden können. In dem hier vorgestellten Verfahren werden 
GPS Fixpunkte in jedes Bild der Sequenz projiziert, um somit feste Korre- 
spondenzen zu erzeugen und somit das Korrespondenzproblem zu umgehen. 
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Im folgenden Abschnitt wird die Methode hergeleitet mit der sich die GPS- 
Fixpunkte in die Bildsequenz projizieren lassen. 


4.1.1 Projektion von GPS-Punkten in das 
Bildkoordinatensystem 


GPS steht für Global-Positioning-System. Punkte dieses Systems bestehen aus 
zwei Winkelgrößen und einer Höhe. Die Winkelgrößen sind die Latitude und 
Longitude, die die Lage des Objekts bezüglich der Längen- und Breitengra- 
de des WGS-84 Erdellipsoiden beschreiben. Das Ziel dieses Abschnitts ist die 
Projektion von einzelnen GPS-Punkten in das Bildkoordinatensystem. Diese 
projizierten Punkte werden als Punktkorrespondenzen zur Berechnung von 
Homographien verwendet. Um die GPS-Punkte in das Bild projizieren zu kön- 
nen, wird eine Abbildung vom GPS-Koordinatensystem in das Bildkoordina- 
tensystem benötigt. Im Folgenden wird das GPS-Koordinatensystem als Welt- 
koordinatensystem bezeichnet. Die gesuchte Abbildung wird durch 


f : Xops = XcamM (4.4) 


definiert. x... ist ein Vektor im Weltkoordinatensystem und x_, ,,, ein Vek- 
tor im Bildkoordinatensystem. Bei den Weltkoordinaten handelt es sich um 
Kugelkoordinaten. Das Zielkoordinatensystem ist ein kartesisches Koordina- 
tensystem. Durch Rotationen werden die Latitude und Longitude in das Ka- 


merakoordinatensystem überführt. Durch 


sin(x) 0 -cos(x) 
Ral(x)=| 0 1 0 ; (4.5) 
cos(x) 0 sin(x) 
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die Latitude so ausgerichtet, das sie der x-Koordinate des Kamerasystems ent- 
spricht. Mit 


cos(y) sin(y) 0 
Ron) =|- sing) cos(y) 0 (4.6) 
0 0 1 


wird die Longitude gedreht, dass sie der y-Koordinate der Kamera entspricht. 
Durch Multiplikation von (4.5) und (4.6) können die beiden Rotationen zu ei- 
ner Gesamtrotation 


R yorldcam = Rut Rion (4.7) 


kombiniert werden. Durch die Rotation wird ein Vektor x... des Weltko- 
ordinatensystems derart rotiert, dass die Kamera im Koordinatenursprung 
liegt. Dadurch befinden sich sowohl die Kamera als auch die Weltkoordinaten 
im gleichen Koordinatensystem. Durch die Rotation können Koordinaten im 
Weltkoordinatensystem in das Kamerakoordinatensystem überführt werden. 
Die Projektion in das Bildkoordinatensystem ist noch nicht erfolgt. 


Es muss geprüft werden, ob sich die angegebenen GPS-Koordinaten innerhalb 
des Blickwinkels der Kamera befinden. Zunächst wird das Kamerakoordina- 
tensystem so rotiert, dass die Ausrichtung des Systems der Blickrichtung der 
Kamera entspricht. Im Messsystem ist ein Inertialsystem verbaut. Das Inerti- 
alsystem misst Winkelgeschwindigkeiten. Unter Verwendung eines Kalman- 
Filters im Bootstrap-Algorithmus werden die Lagewinkel (Roll, Nick und Gier) 
bestimmt. Durch a wird der Rollwinkel bezeichnet, durch $ der Nickwinkel 
und durch y der Gierwinkel. Die Reihenfolge der Rotationen muss eingehalten 
werden. Bevor die Lagewinkelrotationen definiert werden, müssen zunächst 
die Achsenrichtungen definiert werden, sodass die x- und y-Achsen dem Bild- 
koordinatensystem entsprechend ausgerichtet werden. Im Bildkoordinaten- 
system befindet sich der Ursprung in der unteren, linken Ecke. Somit wird die 
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x-Achse so ausgerichtet, dass sie vom Ursprung aus nach rechts zeigt. Die y- 
Achse zeigt nach oben im Bild, und muss entsprechend ausgerichtet werden. 
Die z-Achse zeigt in die Blickrichtung der Kamera. Die Achsenausrichtung 
wird durch 


0 -1 0 
R=|0 0 -1 (4.8) 
1 0 0 


auf die Koordinatenachsen angewendet. Nach Ausrichtung der Koordinaten- 
achsen werden Roll-, Nick- und Gierwinkel verwendet, um die Ausrichtung 
des Kamerakoordinatensystems an die tatsächliche Lage der Kamera anzupas- 
sen. Für jeden der Lagewinkel wird eine Rotationsmatrix definiert. Die Rota- 
tionsmatrix für den Rollwinkel ist durch 


1 (0) 0 
R,=|0 cos(a) sin(«) (4.9) 
0 -sin(a) cos(a) 


definiert. Durch 


cos(8) 0 —sin(f) 
Rg=]| 0 1 0 (4.10) 
sin(ß) 0 cos(f) 


wird die Rotationsmatrix für den Nickwinkel beschrieben. Mit 


cos(y) sin(y) 0 
R,=|- sin(y) cos(y) 0 (4.11) 
0 0 1 
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wird die Rotationsmatrix des Gierwinkels bestimmt. Die Reihenfolge der Win- 
kel ergibt sich aus der Definitionsreihenfolge der Winkel. Multipliziert man 
die Rotationsmatrizen entsprechend dieser Reihenfolge kann die vollstandige 
Rotation bestimmt werden. Mit der Rotation 


Ream = Rs Ra Rg È R, * Rworld>cam (4.12) 


können Koordinaten im Weltkoordinatensystem in das dem Blickwinkel der 
Kamera entsprechende Kamerakoordinatensystem überführt werden. 


Nachdem die GPS-Koordinaten jetzt in das ausgerichtete Kamerakoordinaten- 
system transformiert werden können, müssen diese Koordinaten nur noch in 
das Bildkoordinatensystem projiziert werden. Hierzu wird eine weitere Ma- 
trix benötigt: die Kameramatrix. Die Kameramatrix setzt sich aus zwei Tei- 
len zusammen, der Kalibriermatrix und einer Translation. Um die Kalibrier- 
matrix aufzustellen, müssen die Brennweite der Kamera und der Bildhaupt- 
punkt bekannt sein. Die Brennweite des verwendeten Kamerasystems lässt 
sich durch Vermessung des Kamerachips ermitteln. Aufgrund der rechtecki- 
gen Form ergeben sich unterschiedliche Brennweiten fy und fy für die x- 
und y-Richtungen. Durch Anwendung der Epipolargeometrie [Har04] lässt 


T 
sich der Bildhauptpunkt | px, Pyl des Kamerasystems ermitteln. Somit lässt 
sich die Kalibriermatrix mit 


fe 0 Py 
K=|0 f Px (4.13) 
00 1 
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zusammensetzen. Die Kameramatrix benötigt noch eine weitere Komponente, 
eine Translation. Diese Translation wird als Verschiebung des Koordinaten- 
ursprungs angesehen. Der Koordinatenursprung des Kamerasystems muss im 
Zentrum der Kamera liegen. Damit wird durch 


100 —* 
K, =[I|-x°]=]0 1 0 -y (4.14) 
001 -z° 


die Translation des Koordinatenursprungs beschrieben. Die vollstandige Pro- 
jektion wird durch 


P; == K 2 Roam ® K; (4.15) 


definiert. Durch Anwendung der Projektionsmatrix P, lassen sich GPS- 
Koordinaten in das Bild projizieren. Aufgrund der Anpassung an die aktuelle 
Rotation der Kamera kann dies für jedes einzelne Bild einer kompletten 
Bildsequenz durchgeführt werden. Somit lassen sich auch nachträglich in 
der Nachbearbeitung GPS-Punkte in das Bild projizieren, da auch hier für 
jedes Bild die aktuelle Position der Kamera bekannt ist. Daher können in 
jedem Bild korrespondierende Punkte generiert werden, anhand derer sich 
die Bild-zu-Bild Transformationen, die Homographien, berechnen lassen. 
Diese Homographien können nun für unterschiedliche Anwendungsfälle 
verwendet werden: Zum Beispiel lässt sich das Bild nachträglich stabilisieren, 
zusätzlich können so Markierungen im Bild gesetzt werden, die über die 
gesamte Laufzeit der Bildsequenz stabil an einem Ort gehalten werden kön- 
nen. Im Zusammenhang mit dieser stabilen Platzierung von Markierungen 
wurden Experimente getätigt, die zeigen sollten, dass der gewählte Ansatz 
Vorteile generiert im Vergleich zu gängigen Korrespondenztrackern, wie SIFT 
oder SURF-Merkmalen. Als Anwendungsfall für die Experimente wurden 
Beobachterversuchsdaten verwendet. 
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Tabelle 4.1: Ergebnisse der durch die Homographien induzierten Pixelfehler in der bei Tag auf- 
genommenen Bildsequenz. 


Objekt | Methode | Mittelwert Std Median Max 
GPS 1.613 1.215 1.366 12.094 
ti SIFT 1.099 0.956 0.882 13.121 
SURF 1.112 0.960 0.891 13.122 
GPS 2.300 1.725 1.883 13.418 
b SIFT 2.024 1.602 1.638 13.019 
SURF 2.036 1.610 1.642 12.945 
GPS 1.793 1.141 1.595 14.092 
tz SIFT 1.282 0.994 1.065 13.986 
SURF 1.294 1.992 1.070 13.687 


4.1.2 Experimente zur GPS basierten 
Homographieberechnung 


Für die Experimente wurden insgesamt zwei Bildsequenzen verwendet. Die 
erste Bildsequenz wurde bei Tag aufgenommen und die zweite Bildsequenz 
bei Nacht. In beiden Sequenzen wurden drei signifikante Objekte als Referenz- 
punkte verwendet: eine Stadt (t4), ein Turm (t3) und eine Kaserne (tz). Alle drei 
Objekte wurden in jedem Bild durch Experten annotiert. Zur Berechnung der 
Homographien für die beiden Sequenzen wurde die RANSAC (Random Sam- 
ple Consensus) Prozedur von Fischler et al. [Fis81] verwendet. Die notwen- 
digen Punktkorrespondenzen wurden mit der vorgestellten Methode (GPS), 
anhand von SIFT-Merkmalen (SIFT) und anhand von SURF-Merkmalen be- 
stimmt. Fiir alle drei Methoden wurde die durch Experten annotierte Position 
der drei Objekte im ersten Bild der Sequenz verwendet. Die Objektlokalisa- 
tionen wurden mittels der auf den Korrespondenzen berechneten Homogra- 
phien bis zum letzten Bild der Sequenz transformiert. In jedem Bild wurde der 
Pixelfehler jedes einzelnen Objekts bestimmt. In Tabelle 4.1 werden die Mit- 
telwerte der Pixelfehler, sowie die Standardabweichungen, der Median und 
der Maximalwert der Pixelfehler fiir die Tagsequenz aufgelistet. 
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Beim Betrachten der Tabelle 4.1 fallt auf, dass die mittleren und medianen 
Fehlerwerte zwar etwas größer sind als die der Methoden des Stands der 
Technik, aber dennoch Ergebnisse in der gleichen Größenordung zu erwar- 
ten sind. Erwähnenswert ist auch, dass das vorgeschlagene Verfahren auf ei- 
ne geringere Anzahl an Korrespondenzpunkten zurückgreift, wohingegen die 
Vergleichsmethoden eine deutlich höhere Anzahl an Korrespondenzpunkten 
ansprechen. Die mittleren Fehler sind dennoch etwas höher als man es bei 
hohem Kontrast erwartet. Allerdings heben sich die interessierenden Objekte 
nicht sehr stark vom Hintergrund ab, da dieser auch einen sehr hohen inne- 
ren Kontrast aufweist. 


Ein vergleichbares Experiment wurde unter Verwendung einer Nachtsequenz 
durchgeführt. Aufgrund der fehlenden Sonneneinstrahlung und weiteren Ef- 
fekten wie den kalten Himmel ist der Kontrast einer Nachtsequenz deutlich ge- 
ringer im Vergleich zu einer Tagsequenz. Aus diesem Grund wird die Ermitt- 
lung von Punktkorrespondenzen zwischen zwei Bildern einer Sequenz deut- 
lich schwieriger. Objekte die eine höhere Kerntemperatur vorweisen, emittie- 
ren natürlich in der Nacht in gleichem Maße IR-Strahlung wie auch bei Tag. 
Somit steigt konsequenterweise der Kontrast zu diesen Objekten, wobei der 
Hintergrund mit einem deutlich schwächerem Kontrast nahezu verschwindet. 
Es ist also zu erwarten, dass die Methoden des Stands der Technik hauptsäch- 
lich Korrespondenzen im Bereich der Objekte mit hohem Kontrast ermitteln 
können und dass alle Methoden erfolgreich in der Lage sind gute Ergebnis- 
se zu erzielen. Die Abweichungsergebnisse können in Tabelle 4.2 betrachtet 
werden. 


Die Verbesserung des Objektkontrasts verbessert die Ergebnisse aller Metho- 
den signifikant gegenüber der Tagsequenz. Auch hier weißt der Stand der 
Technik bessere Ergebnisse gegenüber der vorgeschlagenen Methodik vor. 
Dennoch bleibt zu sagen, dass mit der vorgeschlagenen Methode (GPS) ver- 
gleichbare Ergebnisse mit 6 projizierten Punkten im Vergleich zum Stand der 
Technik erreicht werden können. 
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Tabelle 4.2: Ergebnisse des Homographie-Experiments mit einer Nachtsequenz. 


Objekt | Methode | Mittelwert Std Median Max 
GPS 1.231 0.994 0.963 6.799 
ti SIFT 0.771 0.644 0.559 3.837 
SURF 0.792 0.644 0.595 3.911 
GPS 1.074 0.883 0.765 5.278 
ty SIFT 0.859 0.802 0.556 4.697 
SURF 0.870 0.803 0.563 4.740 
GPS 1.040 0.684 0.892 5.589 
tz SIFT 0.729 0.525 0.590 4.103 
SURF 0.756 0.550 0.613 4.467 


Tabelle 4.3: Bewertung des Driftfehlers fiir die drei Methoden zur Homographieberechnung. 


Methode Fehler Median | Maximum 


GPS 2.95 + 1.68 2.71 13.46 
SIFT 6.41 + 3.25 5.92 20.81 
SURF 10.80 + 7.52 9.59 30.89 


In einem dritten Experiment wird das Driftverhalten der Homographien aus 
den drei Methoden untersucht. In diesem Versuch wurde im ersten Bild der je- 
weiligen Sequenz eine Markierung auf ein beliebiges Objekt gesetzt. Die kor- 
rekte Objektposition ist fiir jedes Bild der Bildsequenz bekannt. Die Position 
der Markierung wird von Bild zu Bild transformiert. Fiir die Transformation 
der Markierung werden die Homographien verwendet, die fiir die Sequenz 
mittels der vorgeschlagenen Methode (GPS) und der Methoden des Stands 
der Technik (SIFT) und (SURF) erzeugt wurden. In jedem Bild wurde die eu- 
klidische Pixeldistanz zwischen der jeweiligen transformierten Markierung 
und der originalen Objektposition bestimmt. Der Driftfehler wurde als Mit- 
telwert der bestimmten euklidischen Distanzen berechnet. Zusatzlich wurden 
Standardabweichung, Median und Maximum der euklidischen Distanzen fiir 
jede Methode bestimmt. Die Ergebnisse der Homographien sind in Tabelle 
4.3 zusammengefasst. 
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Die Betrachtung des Driftfehlers zeigt, dass der mittlere Driftfehler fiir die pra- 
sentierte Methode deutlich geringer ist. Sowohl SIFT als auch SURF erzeugen 
größere Fehler in dieser Testreihe. Bei der Betrachtung mehrerer hoch kon- 
trastiger Objekte waren die Methoden SIFT und SURF für jedes Objekt etwas 
genauer als die GPS-basierte Methodik. Im Fall einer Markierung beliebiger 
Objekte im Bild konnte die Stärke des GPS-basierten Ansatzes etwas deutli- 
cher gezeigt werden. In allen Kategorien vom Mittelwert bis hin zum Median 
und Maximum des Pixelfehlers waren die Werte für den GPS-basierten Ansatz 
in Tabelle 4.3 geringer als die der Vergleichsmethoden. 


Nachdem nun die Stabilität, sowie das Driftverhalten der errechneten Homo- 
graphien beurteilt wurden, bleibt ein weiterer Vorteil der vorgestellten Metho- 
dik zu benennen. Sowohl SIFT als auch SURF bestimmen für alle Kandidaten 
von Punktkorrespondenzen einen Deskriptorvektor. Dieser Deskriptorvektor 
ist hochdimensional und die Berechnung aller Komponenten in diesem Vek- 
tor ist sehr aufwändig. Zusätzlich ist die Anzahl der Punktkorrespondenzen 
sehr hoch, wodurch ein großes überbestimmtes System zur Berechnung der 
Homographien gelöst werden muss. Für den vorgestellten Algorithmus mit 
GPS-basierten Punktprojektionen genügt es eine geringe Anzahl von GPS- 
Punkten in das Bild zu projizieren. Durch die Kenntnis der Projektionspa- 
rameter kann in jedes Bild der Sequenz ein Objekt an die korrekte Position 
eingefügt werden. Hierdurch werden keine hochdimensionalen Deskriptoren 
benötigt. Daraus ergibt sich ein geringerer Speicheraufwand für die vorge- 
stellte Methode. Neben dem geringeren Speicheraufwand wird zusätzlich der 
Aufwand der Berechnung bewertet. Für die Bestimmung des Rechenaufwands 
wurde eine Simulation in Matlab R2013b mit einem Intel Core i7 Prozessor 
durchgeführt. Die Rechenzeiten wurden mit einer Sequenz mit 2300 Einzel- 
bildern ermittelt und sind in Tabelle 4.4 zu sehen. 


Die Zeiten in Tabelle 4.4 zeigen die von jeder Methode benötigte Zeit um al- 
le Homographien der gesamten Sequenz zu berechnen. Insbesondere fällt die 
sehr hohe Rechenzeit für die SIFT Methode auf. Der SIFT Algorithmus benö- 
tigt sehr viel Zeit für die Bestimmung der Punktkorrespondenzen und benö- 
tigt deshalb die meiste Zeit für die Berechnung der Homographien. Obgleich 
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Tabelle 4.4: Bewertung der Rechenzeit fiir die Bestimmung von Homographien in einer 2300 
Bilder umfassenden Sequenz. 


Methode | Rechenzeit in Sekunden Pro Bild 


GPS 6.9 0.003 
SIFT 5518.6 2.4 
SURF 221.3 0.1 


die SURF Methode im Vergleich zur SIFT Methode deutlich weniger Zeit be- 
nötigt, ist sie dennoch deutlich langsamer als der GPS-basierte Ansatz. Aller- 
dings ist der Zeitaufwand für die Bestimmung der Projektionsmatrizen hier 
nicht beachtet worden. Er ist dennoch vernachlässigbar im Vergleich zu den 
Rechenzeiten der SIFT und SURF Methodik. 


Mit der GPS-basierten Projektion von Objekten in Kamerabildern konnte die 
Berechnung von Homographien für Bildsequenzen qualitativ verbessert und 
beschleunigt werden. Es konnte gezeigt werden, dass die erreichte Genauig- 
keit ähnlich gute Ergebnisse erzielt hat wie auch der Stand der Technik. Im 
Drift-Experiment konnte sogar ein deutlich besseres Ergebnis im Vergleich 
zum Stand der Technik erzielt werden. 


4.2 Tracking von Punktzielen: 
Flugzeugtracking anhand von 
Multilaterationsmessungen 


Das Tracking von Punktzielen lässt die Ausdehnung des beobachteten Ob- 
jekts außer acht. Eine Modellierung eines bewegten Punktziels lässt ebenfalls 
außer acht, dass die Bewegung durch die Masse des Objekts beeinflusst wird. 
Für den Fall des Multilaterationstrackings wird das beobachtete Flugzeug als 
Punktobjekt modelliert. Diese Art der Modellierung erlaubt die Verwendung 
eines einfachen Systemmodells. Etwaige Ungenauigkeiten bei der Modellie- 
rung können durch entsprechend modellierte Rauschkovarianzmatrizen cha- 
rakterisiert werden. In dem vorliegenden Anwendungsfall wird von verteilten 


74 


4.2 Tracking von Punktzielen: Flugzeugtracking anhand von Multilaterationsmessungen 


Bodenstationen ausgegangen, die dazu verwendet werden die Flugzeugposi- 
tion zu bestimmen. In diesem Aufbau sendet das Flugzeug Signale aus, die zu 
verschiedenen Zeitpunkten von den Bodenstationen empfangen werden. Die 
unterschiedlichen Ankunftszeiten des Signals an den Basisstationen ist durch 
die große räumliche Verteilung der Basisstationen begründet. Die aktuelle Po- 
sition des Flugzeugs ist unbekannt, daher ist auch der Sendezeitpunk des Si- 
gnals unbekannt. Somit kann die genaue Sendezeit nicht direkt bestimmt wer- 
den. Es liegen nur die Empfangszeiten an den Basisstationen vor. 


Ohne Beschränkung der Allgemeinheit wird davon ausgegangen, dass n E€ N 
Basisstationen in allgemeiner Position zueinander vorliegen. Die Ankunfts- 
zeiten des Flugzeugsignals werden durch 


Ba 


t = — ~ +t (4.16) 


beschrieben, wobei der Index i € {1, ... ‚n} die i-te Basistation bezeichnet. Der 
Vektor S; beschreibt die Position des i-ten Sensors und x, beschreibt die unbe- 
kannte Position des Flugzeugs zum Zeitpunkt k. Mit c wird die Lichtgeschwin- 
digkeitskonstante im leeren Raum bezeichnet, es gilt c = 299792.458km/s. 
Der Ausdruck ||s, — x || beschreibt den Abstand des Flugzeugs zur Basissta- 
tion, somit kann die Dauer zwischen der Signalaussendung und dem Emp- 
fangszeitpunkt bestimmt werden. Mit Hilfe des Sendezeitpunkts t? kann der 
Empfangszeitpunkt in der Basistation bestimmt werden. Die Gleichung ent- 
hält zwei Unbekannte: die gesuchte Position des Flugzeugs x, und den Zeit- 
punkt der Aussendung des Signals t?. Eine Möglichkeit die Anzahl der Unbe- 
kannten zu reduzieren ist die Verwendung von Differenzen der Ankunftszeit 
(engl. Time differences of Arrival (TDOA)) als Messungen. Für n Basisstatio- 
nen resultiert die Verwendung von TDOAs als Messungen in n — 1 einzelnen 
Messungen. Durch die Verwendung von TDOAs wird die Ankunftszeit elimi- 
niert. Eine TDOA beschreibt anschaulich einen Hyperboloid im Raum. Um die 
Position des Flugzeugs zu bestimmen, sind somit mindestens 3 TDOA Mes- 
sungen notwendig. Insofern die Messungen keiner Störung unterliegen, kann 
die aktuelle Position durch den Schnitt von mindestens drei Hyperboloiden 
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bestimmt werden. Ein Hyperboloid kann aus zwei Körpern bestehen, somit 
können mehrere Schnittpunkte vorliegen. Ein alternativer Ansatz besteht in 
der direkten Verwendung der Ankunftszeiten (4.16). Die Empfangszeit ent- 
spricht geometrisch einem Kegel. Somit kann die Position des Flugzeugs durch 
den Schnitt mehrerer Kegel bestimmt werden. Ein Nachteil der Verwendung 
der Ankunftszeiten ist der unbekannte Sendezeitpunkt t?. Der unbekannte 
Sendezeitpunkt bedingt, dass die Höhe des Kegels unbekannt ist. Dennoch ist 
der Schnitt von Kegeln wohl definiert. 


Die Verwendung der Ankunftszeiten als Messabbildung für einen Trackingal- 
gorithmus erfordert eine Behandlung des unbekannten Sendezeitpunkts. Da 
die Position des Flugzeugs ermittelt werden soll, werden zur Vorbereitung 
die Ankunftszeiten in Pseudoabstandsmessungen transformiert. Zu diesem 
Zweck wird (4.16) aufbeiden Seiten der Gleichung mit der Schallgeschwindig- 
keit c multipliziert. Somit kann der Abstand des Flugzeugs zum i-ten Sensor 


durch 


Ve) =c: te = lls -x llt e: ty (4.17) 
rk 


berechnet werden. Der unbekannte Sendezeitpunkt geht in den Offset rg = c- 
t? ein. Unter der Annahme, dass der Empfangszeitpunkt bekannt ist kann der 
Abstand des Flugzeugs zur i-ten Basisstation durch (4.17) bestimmt werden. 
Dabei ist die Flugzeugposition durch x, gegeben. Für den Tracker werden die 


beiden Unbekannten x, und rę in den Systemzustand aufgenommen. 


k 
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4.2.1 Modellierung des Systems und Zustandsschatzung 


Der Systemzustand wird mit Hilfe der aktuellen Flugzeugposition und dem 
unbekannten Offset durch 


x 
f= | Pi | (4.18) 
definiert. Eine Messung umfasst die Pseudoabstandsmessungen zwischen der 
aktuellen Flugzeugposition und allen vorhandenen Basisstationen. Zur voll- 
ständigen Definition des Messmodells müssen alle Unsicherheiten, die die 
Messungen beeinflussen können, in Erwägung gezogen werden. Die Positio- 
nen der Basisstationen gelten als unsicher, da GPS-Messgeräte für die Posi- 
tionsbestimmung eingesetzt werden. Durch ungenaue Uhren und Sensordrift 
ergeben sich somit Fehler bei der Positionsbestimmung. Dieser Fehler wird 
durch einen additiven Rauschanteil modelliert. Durch 


S = (5 +p.) (4.19) 


wird die unsichere Position der i-ten Basisstation angegeben, wobei fiir den 
additiven Rauschanteil Br N (0, C P) gilt. Die Kovarianzmatrix CE bezieht 
sich auf die Unsicherheit Já der Positionsbestimmung der Basisstationen. Es 
wird angenommen, dass die Positionsunsicherheit der Basisstationen unkor- 
reliert ist. Die Messunsicherheit ergibt sich einzeln zu 92: Die Varianz für 
jede einzelne Basisstation ergibt sich in Abhängigkeit der Anzahl an Basissta- 
tionen n und kann durch 


(4.20) 


angegeben werden. Aufgrund der angenommen Unkorreliertheit ergibt sich 
eine diagonale Kovarianzmatrix c? = diag (09: Ge a). 
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Ein weiterer Unsicherheitsfaktor entsteht durch Störungen der Messungen. 
Die Messung der Empfangszeit wird ebenfalls durch einen Zeitmesser durch- 
geführt. Ein solcher Zeitmesser unterliegt einer Drift, ebenso wie ein GPS- 
Messgerät. Der zeitliche Anteil wird durch of angegeben. Das Signal unter- 
liegt ebenfalls weiteren physikalischen Störeinflüssen, dazu gehören Diffrak- 
tion, Reflexion und Streuung. Diese Rauschanteile werden durch oe definiert. 
Die beiden Rauschanteile des Signals werden als additiver Rauschterm mo- 
delliert. Daraus ergibt sich durch 


Ci" = diag (fo? + o7},..., {o2 + o7}) (4.21) 


die Kovarianzmatrix fiir den additiven Rauschanteil der Signalmessungen. 
Das additive Rauschen wird als mittelwertfreies, normalverteiltes Rauschen 
modelliert. Somit gilt uy ~N (0, oe), Neben einem additiven Rauschanteil 
des Signals wird ein multiplikativer Rauschanteil 


um ~ N(1,C?") (4.22) 


definiert. ve ist ein Zufallsvektor mit mittelwertbehafteter Normalverteilung. 
Die Definition der drei Rauschanteile ermöglicht die vollständige Angabe der 
Messfunktion, basierend auf n Basisstationen. Durch 


wird das nichtlineare Messmodell definiert, in dem der Abstand der aktuellen, 


geschätzten Position x 


p zu den n Basisstationen S, + P, berechnet wird. Der 
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multiplikative Rauschanteil wird auf die Abstände zu den Basisstationen an- 
gewandt, wobei der Offset rę und ein additiver Rauschterm zu der Messung 
hinzuaddiert werden. 


Das Systemmodell modelliert die physikalische Bewegung des beobach- 
teten Objekts. Das vorliegende Objekt ist ein Passagierflugzeug, das sich 
vorrangig mit konstanter Geschwindigkeit fortbewegt. Im Fall von Kursän- 
derungen werden in kurzen Passagen Kurven zur Kurskorrektur geflogen. 
Somit reicht ein einfaches Modell zur Beschreibung von Bewegungen mit 
konstanter Geschwindigkeit nicht aus. Aus diesem Grund wird ein Kom- 
binationsmodell (engl. Interacting Multiple Model) (IMM) verwendet. IMM 
werden in Bar-Shalom et al. [Bar02] beschrieben. Im Fall des Multilatera- 
tionstrackings kommen zwei unterschiedliche Modelle für die Bewegung 
des Flugzeugs zum Einsatz: Ein konstantes Geschwindigkeitsmodell (engl. 
Constant-Velocity-Model) (CV) und ein konstantes Positionsmodell (engl. 
Constant-Position-Model) (CP). 


Der Systemzustand wurde um den unbekannten Offset erweitert. Daher muss 
neben der Flugzeugbewegung ein Systemmodell generiert werden, dass die 
dynamische Entwicklung des Offsets beschreibt. Da keine Annahme über die 
Dynamik des Offsets getroffen werden kann, wird das konstante Positions- 
modell (engl. Constant-Position-Model) (CP) verwendet. Im CP Modell geht 
man davon aus, dass der Offset konstant ist. Da dieses Modell keine genaue 
Beschreibung des tatsächlichen Verhaltens des Offsets ist, enthält das Modell 
einen additiven Rauschterm, der die Ungenauigkeit des Offsets beschreibt. 
Durch 


reat are tw" (4.24) 


ist das CP Modell fiir den unbekannten Entfernungsoffset beschrieben, wobei 
w” ein mittelwertfreies, Gauß’sches Rauschen ist. 


Für die Beschreibung der Flugzeugdynamik wird das CV Modell eingesetzt. 
Das CV Modell ist ein lineares Modell, in dem die aktuelle Position und die 
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aktuelle Geschwindigkeit des beobachteten Objekts in der Zustandsbeschrei- 
bung enthalten sein müssen. Die Flugzeugposition wird in einer Ebene be- 
schrieben, da eine Schätzung der Höhe des Flugzeugs aufgrund der ebenen 
Verteilung der Basisstationen zu fehleranfällig ist. Die Höhe des Flugzeugs 
wird über Höhenmesser bestimmt, da diese Information sicherheitsrelevant 
ist. Somit können Position und Geschwindigkeit des Flugzeugs jeweils durch 
zwei Koordinaten angegeben werden. Der Anteil des Systemzustands zur Be- 
schreibung des aktuellen Zustands des Flugzeugs ist durch 


N . 47 
Xk = [Xk Yk; X» Vk] (4.25) 


definiert. Ausgehend von dem Aufbau des Systemzustands kann das CV Sys- 
temmodell durch 


A, = l B il (4.26) 


angegeben werden, wobei I die Einheitsmatrix ist, 0 die Nullmatrix und T der 
diskrete Zeitschritt. Mit der Systemmatrix und dem Systemzustand kann die 
Systemgleichung definiert werden. Für das CV Modell ergibt sich eine lineare 
Systemfunktion durch 


Xpy TAx X tw (4.27) 


wobei wy ein korreliertes Gauß’sches Rauschen mit Kovarianzmatrix 


C% = Enge a (4.28) 
z7 Q TQ 
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beschreibt. Die Matrix Q = diag {of, oy} enthalt die Positionsunsicherheiten 
auf der Hauptdiagonalen. 


Im vorliegenden Multilaterationstracker werden simultan der unbekannte 
Offset und die Position des Flugzeugs geschätzt. In den vorangehenden 
Abschnitten wurden die Systemmodelle für den Offset und die Flugzeugbe- 
wegung unabhängig voneinander definiert. Für eine simultane Schätzung 
müssen beide Modelle miteinander kombiniert werden. Dies kann durch Er- 
weiterung des Systemzustands und zusammengesetzte Systemkovarianzma- 
trix und Systemmatrix erreicht werden. Die zusammengesetzte Systemmatrix 
für das Systemmodell kann durch reguläre Erweiterung der Systemmatrix 
definiert werden. Die kombinierte Systemmatrix kann durch 


A, 0 
a=| T 1 (4.29) 


angegeben werden. Die Matrix A, ist die Systemmatrix des CV Modells. Für 
die Erweiterung mit dem Offsetsystemmodell wird die Matrix um eine Zei- 
le und eine Spalte vergrößert. Die Hauptdiagonale enthält die Identitätsab- 
bildung für den Offset. Da der Offset unabhängig von der Position und Ge- 
schwindigkeit ist, werden die restlichen Felder mit Nullvektoren aufgefüllt. 
Äquivalent wird die Kovarianzmatrix für das Systemrauschen erweitert. Das 
Ergebnis der Erweiterung ist durch 


c® o 
w x = 
cs [g 3] (4.30) 


gegeben. Der erweiterte Systemzustand ist durch 


X i T 
Se = [XK Yk; Xk Veo VK] (4.31) 
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gegeben und entsteht durch Erweiterung um den unbekannten Offset rp. 
Durch die Modellierung des Systemzustands, der Systemabbildung und der 
Messabbildung kann die Definition des Schätzers für das Multilaterations- 
tracking erfolgen. Die Modellkomponenten können in die Gleichungen für 
das stochastische Filter eingesetzt werden. Durch die Definition einer nicht- 
linearen Messabbildung muss ein nichtlineares Filter als Schätzer gewählt 
werden. 


4.2.2 Schätzerdesign 


Da ein nichtlineares Filter eingesetzt werden muss, bietet sich die Ver- 
wendung eines Sample-basierten Verfahrens an. Zu den Sample-basierten 
Verfahren gehören das Particle-Filter [Aru02], sowie das Unscented Kalman 
Filter (UKF) [Jul99, Jul00]. Die beiden Verfahren unterscheiden sich in der 
Art des verwendeten Samplings. Im Particle-Filter wird ein zufallsbasiertes 
Sampling durchgeführt, wohingegen das UKF ein deterministisches Sam- 
pling verwendet. Durch das zufallsbasierte Sampling wird eine Vielzahl an 
Partikeln für das Particle-Filter benötigt. Determinischte Sampling Verfah- 
ren greifen für das Sampling auf das erste und zweite Zentrale Moment 
der A-Priori-Zustandsverteilung zurück. Filter, die für das Sampling die A- 
Priori-Zustandsverteilung verwenden, werden unter der Bezeichnung lineare 
Regressions-Kalman-Filter zusammengefasst. Ein weiterer Vertreter dieser 
Klasse ist das durch Huber et al. in [Hub08] beschriebene Gaußfilter. Das 
Gaußfilter und das UKF führen beide ein deterministisches Sampling der 
Zustandsverteilung aus. In Huber et al. [Hub08] konnte gezeigt werden, dass 
mit dem veränderten Samplings des Gaußfilters eine verbesserte Schätzung 
der posterioren Verteilung durchgeführt werden kann. Aus diesem Grund 
wird für das Multilaterationstracking auf den Gaußfilter zurückgegriffen. 


Die Systemmatrix (4.29) ist linear. Aus diesem Grund muss kein Sampling der 
prioren Verteilung durchgeführt werden. Somit kann der Prädiktionsschritt 
des Standard Kalman Filters verwendet werden. Durch 
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P e 
=A. 4.32 
—k+1 A ( ) 
P _ T 
Ci j = ACA? cl (4.33) 


werden der Systemzustand & i und die Systemkovarianzmatrix C; durch An- 


wendung von (4.29) und (4.30) prädiziert. 


Die Durchführung des Filterschritts erfordert die Berechnung des Kalman 
Gains Kg, des geschätzten Systemzustands a und der geschatzten System- 


kovarianzmatrix Cz. Dazu müssen folgende Gleichungen gelöst werden: 


—1 
Kr = Cc? (cX) (4.34) 
gear (e) as 
Ce = C? — Ky Cy - KT (4.36) 


Die Größen Me , H und ce können nur unter Verwendung des nichtlinearen 
Messmodells. (4.23) bestimmt werden. Wegen der Nichtlinearität können die 
Ausdrücke nicht analytisch ausgewertet werden. Daher ist eine Approxima- 
tion des prädizierten Zustands notwendig. Zur Approximation des prädizier- 
ten Zustands wird das deterministische Sampling des Gaußfilters eingesetzt. 
Bevor das Sampling angewendet wird, erfolgt eine Zerlegung des Systemzu- 
stands. Dabei wird der Systemzustand in einen Anteil zerlegt, der in der Mess- 
funktion verwendet wird, und in einen Anteil, der nicht in der Messfunktion 
verwendet wird. Die Zerlegung ist durch 


T 
x = [Xk Yk ZF] > 


aS aT 
xP = [Xe Vk ic] 


83 


4 Tracking von Punkt- und ausgedehnten Objekten 


gegeben. Die Geschwindigkeit geht zwar indirekt durch das Systemmodell 
in die aktuelle Position des Flugzeuges ein, ist aber dennoch kein direkter 
Bestandteil des Messmodells. Aus diesem Grund wird die Geschwindigkeit 
in einem separaten Teil untergebracht. Die Zerlegung des Systemzustands ist 
gültig, weil die prädizierte Dichte entsprechend der Formel von Bayes durch 


s(&) = fl) f (2x) (4.37) 


faktorisiert werden kann. Es wird angenommen, dass E ~ N 6 p Cx) gilt. 


Unter dieser Annahme, kann die Kovarianzmatrix entsprechend der Dichte 
zerlegt werden. In 


ce cv 
C, = k k 4.38 
k | C ( ) 


ist die Zerlegung dargestellt. Da die prädizierte Dichte eine Gaufdichte ist, 
können entsprechend der Formel von Bayes alle Teildichten als Gaußdichten 
angegeben werden. Die Teildichte für f (x2) kann durch 


N (xp = ue, cg) (4.39) 


angegeben werden. Beutler et al. haben in [Beu09] gezeigt, dass f (x? | a) 
ebenfalls eine Gaußdichte ist. Die vollständige Dichte kann durch 


b by cba = b b_ pba -1 a,b 
N (xè = Ir? + Cy": (Cf) (xe - u)| c? — Cy" (Cf) -Cx ) 
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bestimmt werden. Die Teildichten des zerlegten Systemzustands werden be- 
notigt, um die Kovarianzmatrizen cy und c? zu approximieren. Da die Mes- 


sungen ausschließlich von dem Teilzustand x abhängen, genügt die Appro- 


ximation von f (x?) durch eine Dirac-Mischdichte. Huber et al. haben in 
[Hub08] beschrieben, das eine Gaußdichte durch 


f (x2) » D a (xt — ua) (4.41) 


mit einer Dirac-Mischdichte approximiert werden kann. Die ue entsprechen 


den Positionen der einzelnen Dirac-Komponenten der Mischdichte. Die Dirac- 
Komponenten repräsentieren die Samples der zu approximierenden Dichte. 
Fir die Bestimmung der Positionen der Samplepunkte wird auf Huber et al. 
[Hub08] verwiesen. 


Das Messmodell in (4.23) wird dazu verwendet die Samplepunkte 4“ in den 
—t 


Messraum zu transformieren. Die transformierten Samplepunkte werden 


durch 


w = h(x") (4.42) 


| 


repräsentiert. Die transformierten Samples u” werden als Dirac-Komponenten 
— 

einer transformierten Dirac-Mischdichte angenommen. Somit ist durch die 

Dirac-Mischdichte eine Approximation der Messdichte f (v) gegeben. Um 


den Mittelwert und die Kovarianzmatrix der Messdichte rechnerisch zu ap- 
proximieren, werden nach Huber et al. in [Hub08] die Stichprobenmittelwert- 
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und die Stichprobenkovarianzfunktion verwendet. Mit Hilfe der Stichpro- 
benmittelwertfunktion ergibt sich durch 


w= = > u? (4.43) 


der Mittelwertvektor der Messdichte, wobei L die Anzahl der Dirac- 
Komponenten u” ist. Unter Anwendung der Stichprobenkovarianzfunktion 


wird durch 


id T 
c? =7 2 (w - p’): (w -w) + Cc. (4.44) 


die Kovarianzmatrix der Messdichte berechnet, wobei d die Dimension des 

Systemzustands ist. Da die Schätzung der Messkovarianzmatrix erwartungs- 
; : 1 i 

treu ist, kann hier der Faktor 7 verwendet werden. Nachdem die Messko- 

varianzmatrix c) durch Anwendung der Stichprobenkovarianzfunktion be- 

rechnet wurde, kann jetzt unter Verwendung der approximierten Dichten die 


Kreuzkovarianzmatrix bestimmt werden. Unter Verwendung der Zustands- 


dichte f 6 > ergibt sich durch 


ii E-e) (o -w sloe) AlE), (as) 


die Kreuzkovarianzmatrix. Um die approximierten Dichten verwenden zu 
können, wird die Kreuzkovarianzmatrix zerlegt. Die Zerlegung erfolgt in 
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einen beobachtbaren und nichtbeobachtbaren Teil. Die resultierende Zer- 


legung wird durch 


ey [Cy 
cr he (4.46) 
k 


angegeben. Der beobachtbare Anteil er kann unter Anwendung der Stich- 
probenkovarianzfunktion mit den Samples der Messdichte und der A-Priori- 
Dichte berechnet werden. Somit kann mit 


1x j 
Cv =. (u - 2). (w — ») 4.4 
e ST AE ENEE ac 


die Kreuzkovarianzmatrix des beobachtbaren Anteils des Systemzustands be- 
rechnet werden. Die Bestimmung des nichtbeobachtbaren Anteils der Kreuz- 
kovarianzmatrix ce kann analytisch erfolgen. Hierzu muss 


cy = b h(x@ E bja a agyb b y a 
k = [| 2-a) -f (xPlxt) f (x4) dxgax? — u? - (w) oe 


b 
k 
Messungen kann diese Variable durch Marginalisierung eliminiert werden. 


ausgewertet werden. Aufgrund der Unabhangigkeit der Variablen x? von den 


Durch geschicktes Umsortieren der Integrale und der analytischen Berech- 


nung der Integrale kann der Ausdruck fiir die Berechnung von er verein- 
facht werden. Die resultierende Berechnungsvorschrift ist durch 
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gegeben. Durch Berechnungen kann (4.49) in 


ce =ch*. (ce) ad (4.50) 
vereinfacht und umgeformt werden. Durch die Bestimmung der beobacht- 
baren und nichtbeobachtbaren Anteile der Kreuzkovarianzmatrix ist (4.46) 
vollständig bestimmt. Somit können (4.34), (4.35) und (4.36) bestimmt wer- 
den. Durch eine geschickte Zerlegung des Systemzustands konnte der Anteil 
der zu approximierenden Zustandsdichte signifikant reduziert werden. Eben- 
so konnte der Berechnungsaufwand der Kreuzkovarianzmatrix durch analyti- 
sche Berechnungen optimiert werden. In Simulationen wird die Funktionalität 
des vorgeschlagenen Modells demonstriert. 


4.2.3 Simulationsergebnisse 


In drei unterschiedlichen Simulationen wird die Wirksamkeit des vorgestell- 
ten Multilaterationstrackers im Vergleich zum Stand der Technik bewertet. 
Es wird grundsätzlich zwischen analytischen Methoden und stochastischen 
Trackingverfahren unterschieden. Die analytischen Methoden sind die Sphe- 
rical Interpolation Methode (SI), die Abel et al. in [Abe87] beschrieben ha- 
ben und die hyperbolische Positionierungsmethode (CH), die in [Cha94] von 
Chan et al. publiziert wurde. Als weiteres stochastisches Trackingverfahren 
kommt ein Unscented Kalman Filter (UKF) basierend auf TDOA Messungen 
zum Einsatz. 


Es wurden sieben Sensoren modelliert, die in diskreten Zeitabständen Signale 
von einem Flugzeug empfangen. Tabelle 4.5 fasst die Positionen der Sensoren 
zusammen. 


Die Trajektorie des Flugzeugs wird einmalig festgelegt. Abbildung 4.3 zeigt 
die planare Projektion der Flugzeugtrajektorie. In den Simulationen wird die 
Schätzung der Flughöhe vernachlässigt. Die Sensorpositionen in Tabelle 4.5 
weisen im Vergleich zum Flugzeug nahezu identische Höhen auf, sodass eine 
akkurate Schätzung der Höhe unmöglich ist. 
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Tabelle 4.5: Sensorpositionen für die Simulation des Multilaterationstrackings. 


Sensor | x/km y/km z/km 
A 10 10 0.150 
B 30 120 0.360 
C 100 35 0.220 
D 175 110 0.060 
E 200 75 0.140 
F 5 80 0.420 
G 170 10 0.270 


x104 


yinm 
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Abbildung 4.3: Planare Projektion der simulierten Flugzeugtrajektorie. 


Die Trajektorie umfasst 250 Zeitschritte und wird fiir alle drei Simulationen 
verwendet. Die drei Simulationen behandeln unterschiedliche Szenarien. Das 
erste Szenario variiert die Standardabweichungen des Sensorrauschens fiir al- 
le Sensoren. Das vorgestellte Trackingverfahren und die Vergleichsmethoden 
entsprechend dem Stand der Technik werden unter dem Einfluss der unter- 
schiedlichen Rauschstärken untersucht und bewertet. In der zweiten Simulati- 
on wird die Anzahl der Sensoren verändert. Dabei liegt der Fokus darauf, wie 
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Tabelle 4.6: Resultierende RMSE Werte inklusive der Standardabweichungen in m für den Multi- 
laterationstracker (GF), den TDOA-basierten UKF (UKF), die Spherical Interpolation 
Methode (SI) und die hyperbolische Lokalisierung (CH) aus der Simulation mit va- 
riierenden Rauschstarken. 


Methode 0.3 m 3m 7.5m 15m 

GF 0.35+0.24 2.65+1.78 5.64+ 3.69 10.08 + 6.21 
UKF 0.35+ 0.26 2.89 + 2.07 6.51 + 4.68 11.98 + 8.43 
SI 0.70 +0.47 7.04 +4.73 17.60 + 11.83 35.20 + 23.65 
CH 0.43 + 0.32 5.87 + 11.54 22.69 + 43.62 35.75 + 48.91 


sich die Positionsgenauigkeit der verwendeted Methoden unter verschiede- 
nen Sensoranzahlen verändert. In der dritten Simulation werden Sensoraus- 
fälle untersucht. Dabei werden in zwei Durchläufen 10 Prozent und 20 Prozent 
der Sensoren zufällig ausgewählt, die keine Signale empfangen. Dieser Um- 
stand verursacht Unterraummessungen. Da nur das vorgestellte Trackingver- 
fahren und der Unscented Kalman Filter Unterraummessungen verarbeiten 
können, werden hier nur diese Trackingverfahren miteinander verglichen. 


Für die erste Simulation wurden für verschiedene Rauschstärken jeweils 1000 
Monte-Carlo-Simulationen mit der oben beschriebenen Trajektorie durchge- 
führt. Zur Beurteilung des resultierenden Tracking-Fehlers wurden die RMSE- 
Werte über diesen 1000 Durchläufen gemittelt und die Standardabweichung 
für alle vier Methoden berechnet. Die Standardabweichungen für die ver- 
schieden Rauschstärken wurden in vier Schritten erhöht. Nacheinander wur- 
den mit Standardabweichungen von 0.3 m, 3 m, 7.5 m und 15 m jeweils 1000 
Monte-Carlo-Simulationen durchgeführt. Tabelle 4.6 fasst die Ergebnisse des 
Tests zusammen. 


Abbildung 4.4 zeigt die relativen Fehlerniveaus der einzelnen Methoden bezo- 
gen auf die verwendeten Standardabweichungen. Man erkennt, dass die bei- 
den Tracking-Verfahren GF und UKF für jedes Fehlerniveau einen mittleren 
RMSE unterhalb der Standardabweichung des Messrauschens aufweisen. Bei 
den beiden analytischen Vergleichsmethoden steigt der erreichte Tracking- 
fehler bezogen auf das Fehlerniveau sehr stark an. 
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RMSE in m 


0.3m 3m 7.5m 15 m 
Standard-Abweichung des Messfehlers 


Abbildung 4.4: Balkengrafik mit den RMSE Mittelwerten der verwendeten Trackingmethoden. 


Für die zweite Simulation wurde ein festes Fehlerniveau mit einer Standard- 
abwichung von 7.5 m für das Messrauschen festgelegt. Ziel dieser Simulation 
war die Beurteilung der Stabilität des Trackingergebnisses bezogen auf un- 
terschiedliche Anzahlen von Sensoren. Es wurde zwischen 3, 4, 5, 6, und 7 
Sensoren variiert. Für jede Anzahl von Sensoren wurden erneut 1000 Monte- 
Carlo-Simulationen durchgeführt, um durchschnittliche RMSE Werte, sowie 
zugehörige Standardabweichungen zu ermitteln. Die so bestimmten RMSE 
Mittelwerte und Standardabweichungen sind in Tabelle 4.7 aufgeführt. 


Abbildung 4.5 stellt die mittleren RMSE Werte für die zweite Simulation in Ab- 
hängigkeit der Sensoranzahlen und der verwendeten Methoden dar. Es wird 
eine logarithmische Skala für die RMSE Werte verwendet, damit verdeutlicht 
werden kann, wie viele Größenordnungen gerade in den Tests mit geringer 
Sensoranzahl zwischen den analytischen Methoden und den Trackingverfah- 
ren liegen. Dieser Test hat gezeigt, dass die Trackingverfahren GF und UKF 
robuste Schätzungen vorweisen können, auch wenn nur eine geringe Anzahl 
von Sensorstationen vorliegt. Die etwas höheren Trackingfehler des UKF mit 
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Tabelle 4.7: Simulationsergebnis der Variation der Sensorenanzahl. RMSE-Werte inklusive der 
Standardabweichungen in m werden angegeben für jede der verwendeten Metho- 


den. 

Methode #3 #4 

GF 9.4 + 6.36 7.31 44.27 
UKF 19.2 + 17.1 10.5 + 7.91 

SI 1.68x10° + 8.24x10° 1.02x10° + 4.42x10° 
CH 4.77x10° +4.28x10° 4.74x10° + 1.17x10° 
Methode #5 #6 

GF 5.91 + 3.33 4.95 + 2.71 
UKF 8.59 + 6.33 5.96 + 3.77 

SI 223.5 + 1.41x10° 22.8 + 28.3 

CH 6.48x10° + 2.23x10* 854.7 +4.12x10° 
Methode #7 

GF 4.64 + 2.62 

UKF 5.44 + 3.22 

SI 10.6 + 6.85 

CH 14.9 + 38.9 


TDOA Messungen können dadurch begründet werden, dass hier aufgrund des 
Abziehens der Ankunftszeiten n — 1 Messungen vorliegen, wobei n die An- 


zahl der Sensoren ist. 


Die dritte Simulation bewertet die Trackingverfahren GF und UKF bezüglich 
ihrer Robustheit bei Sensorausfall. Für diese Simulation wird von sieben Sen- 
soren mit einer festen Standardabweichung von 7.5 m für das Messrauschen 
ausgegangen. Es werden zwei Monte-Carlo Durchläufe mit jeweils 1000 Wie- 
derholungen durchgeführt. Im ersten Durchlauf wird ein Ausfall von 10% 
der Sensoren simuliert. Im zweiten Durchlauf beläuft sich der Ausfall auf 
20% der Sensoren. Durch diesen Ausfall entstehen sogenannte Unterraum- 
Messungen. Die analytischen Methoden SI und CH besitzen keine Möglichkeit 
diese Unterraum-Messungen zu verarbeiten und werden aus diesem Grund 
für diese Simulation ausgeschlossen. Die Ergebnisse werden wie bereits in 


92 


4.2 Tracking von Punktzielen: Flugzeugtracking anhand von Multilaterationsmessungen 


10 4 


RMSE in m 
2 


10? 4 


101 4 


3 4 5 6 
Anzahl Sensoren 


Abbildung 4.5: Vergleich der Fehlerverläufe mit logarithmischer Skala zur Verdeutlichung der 
Stabilität der verwendeten Methoden. 


Tabelle 4.8: Simulation des Sensorausfalls (in %) für die beiden filterbasierten Methoden. Evalu- 
iert werden die RMSE-Werte inklusive der Standardabweichungen. 


Methode | 10% 20% 
GF 4.35 + 2.08 4.76 + 2.06 
UKF 5.44 + 2.61 6.21 + 2.60 


den vorherigen beiden Simulationen durch RMSE Mittelwerte und Standard- 
abweichungen quantisiert. Tabelle 4.8 fasst die Ergebnisse zusammen. 


Vergleicht man die Ergebnisse in Tabelle 4.8 miteinander, zeigt das vorge- 
schlagene Verfahren GF eine erhöhte Robustheit gegenüber dem UKF mit 
TDOA Messungen. Zur Verdeutlichung der Unterschiede sind in Abbildung 
4.6 die Ergebnisse als Balkendiagramm aufgetragen. 


Abbildung 4.6 verdeutlicht nochmals die Überlegenheit des vorgeschlagenen 
Modells gegenüber einem UKF mit TDOA Messungen. Auch bei vorhandenen 
Subraummessungen verringert sich der Fehler des vorgeschlagenen Trackers 
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Abbildung 4.6: Balkendiagramm mit den mittleren RMSE-Werten bei unterschiedlichen Sensor- 
ausfallszenarien fiir GF und UKF 


GF nur geringfiigig im Vergleich zu einem Versuch in dem alle Sensoren funk- 
tionieren. Somit kann mit der vorgeschlagenen Methode GF ein robustes und 
verlassliches Trackingverfahren präsentiert werden. 


4.2.4 Diskussion der Ergebnisse 


Nach dem Stand der Technik werden zumeist TDOA Messungen verwendet, 
da somit der unbekannte Sendezeitpunkt eliminiert werden kann. Die hier 
vorgestellte Methode ermöglicht eine direkte Verwendung von Empfangszei- 
ten und zeigt zugleich, das eine simultane Schätzung des Sendezeitpunkts als 
Entfernungsoffset zu den Basisstationen eine robuste Schätzung ermöglicht. 
Zugleich kann der geometrische Hintergrund der Flugzeugpositionsbestim- 
mung durch diese Methode vereinfacht werden. Die Positionsbestimmung 
durch TDOA Messungen wird durch den Schnitt von Hyperboloiden reprä- 
sentiert. Diese Schnittberechnung kann analytisch durchgeführt werden, be- 
sitzt allerdings eine hohe Komplexität. Durch die Verwendung der direkten 
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Empfangszeiten konnte die Positionsbestimmung zu einem Schnitt von Ke- 
geln vereinfacht werden. 


Die Verwendung eines stochastischen Filters erlaubt die Verwendung von li- 
nearen Bewegungsmodellen. Für den Filterschritt wurde eine Zerlegung des 
Systemzustands vorgestellt, in einen beobachtbaren und einen indirekt beob- 
achtbaren Anteil. Es wurde herausgestellt, dass nur der beobachtbare Teil des 
Systemzustands in die nichtlinearen Messfunktionen eingeht. Somit musste 
nur ein kleiner Teil des Systemzustands durch Sampling repräsentiert wer- 
den. Für das Sampling und die Filterung wurde das Gaußfilter von Huber et 
al. [Hub08, Beu09] eingesetzt. Die Dekomposition hatte den zusätzlichen Vor- 
teil, dass so die Berechnungskomplexität für das Sampling deutlich reduziert 
werden konnte. Aufgrund der Dekomposition musste auch die Kreuzkovari- 
anzmatrix zerlegt, berechnet und anschließend zusammengesetzt werden. 


In den vorgestellten Simulationen konnte gezeigt werden, dass das Verfahren 
mit unterschiedlichen Rauschstärken umgehen kann. Ebenso konnte gezeigt 
werden, dass das Verfahren eine erhöhte Robustheit bei verschiedenen Sen- 
soranzahlen besitzt. Außerdem ist das Verfahren robust und zuverlässig im 
Fall von Sensorausfällen. 


Zusammenfassend stellt die Möglichkeit der simultanen Schätzung des unbe- 
kannten Offsets und der gesuchten Flugzeugposition eine für das Flugzeug- 
tracking gut geeignete Methode dar. In der Simulationsumgebung stellt das 
Verfahren unter unterschiedlichen Störungseinflüssen eine gute und zuver- 
lässige Schätzung der aktuellen Flugzeugposition bereit. 


4.3 Tracking eines ausgedehnten Objekts: die 
menschliche Iris 


Das menschliche Auge ist ein guter Indikator, wenn es darum geht heraus- 
zufinden wohin sich die Aufmerksamkeit eines Menschen richtet. Das Auge 
eines Menschen setzt sich aus mehreren sichtbaren Bereichen zusammen: der 
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Abbildung 4.7: Abbildung des Sinnesorgans Auge aus Sobotta et al. [Sob62] 


weißen Lederhaut (lat. Sclera), der Regenbogenhaut (lat. Iris), sowie der Pu- 
pille. Alle Teile des menschlichen Auges sind in Abbildung 4.7 dargestellt. 


Die Abbildung zeigt, dass die Unterscheidung zwischen der Sclera und der Iris 
aufgrund des Helligkeitsunterschieds einfach zu bewerkstelligen ist. Etwas 
schwieriger ist die Unterscheidung zwischen Pupille und der Iris. Die Pupille 
verändert ihre Größe, je nachdem auf was das Auge fokussiert oder welche 
Helligkeit vorherrscht. Die Iris verändert ihre äußere Form nicht und behält 
ihren Durchmesser bei. Der innere Durchmesser wird durch die Pupille be- 
stimmt und nimmt ab und zu, je nach Dilatation der Pupille. Der Mittelpunkt 
der Iris entspricht auch gleichzeitig dem Mittelpunkt der Pupille. Die Blick- 
richtung eines Menschen kann somit anhand der Position dieses Mittelpunkts 
bestimmt werden. Diesen Umstand machen sich gängige Eye-Tracker Syste- 
me zunutze. Mit Infrarotreflexen auf der Iris können Eye-Tracker Systeme mit 
vorheriger Kalibrierung den Blickpunkt aufeinem Monitor bestimmen. Damit 
ein Eye-Tracker die Richtung bestimmen kann, ist eine vorherige Detektion 
des Mittelpunkts und die Verfolgung des Mittelpunkts zu jeder Zeit der Beob- 
achtung notwendig. Eine Möglichkeit den Mittelpunkt zu verfolgen besteht 
durch das Tracking der Iris. 


Um aus dem Tracking heraus den Mittelpunkt der Pupille berechnen zu kön- 
nen, genügt ein Tracking als Punktziel nicht aus. Somit muss eine passende 
Repräsentation als ausgedehntes Objekt gefunden werden, mit der das Tra- 
cking durchgeführt wird. Ein geeignetes Formmodell für die Iris ist ein Kreis. 
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Bei der Detektion der Iris muss also darauf geachtet werden, dass die Parame- 
ter des Kreises ausgehend von der Messung geschätzt werden können. Um das 
ausgedehnte Objekt dann in einem Trackingalgorithmus verwenden zu kön- 
nen, muss eine Parameterform für den Kreis gefunden werden. Im Folgenden 
wird zunächst die Detektion des Auges beschrieben, dann die Segmentierung 
des Rands der Iris. Anschließend wird beschrieben, wie aus den Randmessun- 
gen die Parameter des Iris-Modells geschätzt werden. Abschließend wird der 
Trackingalgorithmus angepasst, damit mit den Modellparametern das Tra- 
cking der Iris durchgeführt werden kann. 


4.3.1 Detektion und Segmentierung 


Ausgehend von einer Aufnahme des gesamten Gesichts wird mit Hilfe des 
Cascade-Classifiers der OpenCV-Bibliothek detektiert. Dazu werden verschie- 
dene, vorher trainierte Kaskaden verwendet. Die OpenCV-Bibliothek bietet 
dazu Kaskaden zur Detektion des Gesichts, sowie der Augen an. Der Cascade- 
Classifier bietet eine sehr schnelle Implementierung an und liefert Ergebnisse 
mit einer akzeptablen Genauigkeit. Um eine verbesserte Genauigkeit zu er- 
halten, sollte man selbst Kaskaden für den Klassifikator trainieren. Mit den 
Kaskaden von OpenCV ergeben sich Rechtecke, die den Bereich des gesuch- 
ten Objekts umranden. Das Ergebnis einer solchen Detektion für das Gesicht, 
beide Augen und den Mund, sowie der vergrößerte Bereich des linken Auges 
sind in Abbildung 4.8 zu sehen. 


Ein extrahiertes Augenbild, wie es in Abbildung 4.8 dargestellt ist, ist der Aus- 
gangspunkt für die Segmentierung des Rands der Iris. Um den Rand der Iris 
zu detektieren, wird ein Vorgehen aus der Computergrafik angewendet. Da- 
bei geht man von einem Punkt im Inneren des zu segmentierenden Bereichs 
aus und läuft auf Strahlen dem Rand des Bilds entgegen; bei einer großen 
Grauwertänderung wird dann eine Messung generiert. So geht man auf sehr 
vielen Strahlen ausgehend von diesem Punkt aus, um so Randpunkte der Iris 
zu finden. Ein guter Ausgangspunkt für ein solches Verfahren ist die Pupille. 
Mit Hilfe einer Adaption des Algorithmus von Asadifard et al. [Asa10] wird 
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Abbildung 4.8: Extraktion der Augen unter Verwendung des Kaskaden-Klassifikators der 
OpenCV-Bibliothek. 


der Mittelpunkt der Pupille markiert und somit der Ausgangsgpunkt fiir die 
Detektion des Rands der Iris generiert. 


Ziel dieser Segmentierung ist die Detektion des Rands der Iris. Da die Iris nicht 
der dunkelste Bereich des Auges ist und auch nicht der hellste, muss zunächst 
eine Transformation des Bilds durchgeführt werden, die den Bereich der Iris 
hervorhebt. Bei der Iris handelt es sich im Grauwertbild um einen dunkleren 
Bereich im Vergleich zur Sclera. Somit wird eine Transformation benötigt, die 
dunkle Bereiche im Bild verstärkt. Eine solche Verstärkung kann durch An- 
wendung einer logarithmischen Bildtransformation erreicht werden. Nach- 
dem die dunklen Bereiche hervorgehoben wurden, muss weiterhin die Iris 
erkannt werden. Dazu wird ein Schwellwert bestimmt, mit dem durch eine Bi- 
narisierung des Farbbereichs genau die Pupille übrig bleibt, um so einen Aus- 
gangspunkt zur Detektion der Iris zu erlangen. In einem ersten Schritt wer- 
den die Grauwerte des Bilds in das Intervall [0, 1] transformiert. Anschließend 
wird das Histogramm der transformierten Grauwerte bestimmt, um hieraus 
die kumulative Verteilungsfunktion der Grauwerte zu erlangen. Das resultie- 
rende Grauwerthistogramm sowie die kumulative Verteilung zu diesem His- 
togramm ist für ein beliebiges Augenbild in Abbildung 4.9 dargestellt. 


Die kumulative Verteilung der Grauwerte in 4.9 ist die Grundlage für die 
Schwellwertbestimmung zur Segmentierung der Iris. In Anlehnung an das 
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Abbildung 4.9: Grauwerthistogramm und kumulative Verteilung (CDF) eines logarithmisch 
transformierten Augenbilds. 


Vorgehen in Asadifard et al. [Asa10] wird der Bereich der Verteilungsfunkti- 
on betrachtet, in dem die niedrigsten Grauwerte enthalten sind. Die Pupille 
ist der dunkelste Bereich im Auge. Die Iris ist im Vergleich zur Pupille im 
Grauwertbild etwas heller. Somit muss der Schwellwert etwas höher gewählt 
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Abbildung 4.10: Binärbild als Resultat der adaptiv ermittelten Schwelle zur Segmentierung der 
Iris. 


werden. Bei der aktuellen Skalierung des Auges umfasst die Fläche der Iris ca. 
5% der Bildfläche. Somit wird der Schwellwert gewählt, bei dem die kumu- 
lative Verteilung 5% der gezählten Grauwerte enthält. Basierend auf diesem 
Schwellwert wird ein Binärbild erzeugt. Abbildung 4.10 stellt das Binärbild 
dar. 


Im Binärbild 4.10 sind Teile des Brillenrands und die Iris sichtbar. Iris und Bril- 
lenrand unterscheiden sich grundsätzlich in ihrer Form. Die Iris kann durch 
ein Rechteck mit ähnlich großen Kantenlängen umrandet werden. Bei einer 
perfekten Abbildung der Iris wäre die umrandende Form ein Quadrat. Im Fall 
des Brillenrands wäre das umschließende Rechteck ein Rechteck mit sehr gro- 
Ben Unterschieden zwischen den beiden Kantenlängen. Somit können die re- 
sultierenden Kandidaten gut unterschieden werden und das korrekte Recht- 
eck identifiziert werden. In Abbildung 4.11 ist das Binärbild dargestellt mit (a) 
dem umschließenden Rechteck im Gesamtbild und (b) dem ausgeschnittenen 
Iris-Bereich des Auges. 


In Abbildung 4.11 (b) ist nicht die gesamte Fläche der Iris enthalten. Das ist 
damit zu begründen, dass es in diesem Bild helle Reflexionen auf der Iris gibt. 
Diese konnten nicht durch Vorverarbeitung eliminiert werden. Es genügt je- 
doch den Rand der Iris zu erfassen. Damit alle Randpunkte erfasst werden 
können, wird empfohlen das umschließende Rechteck isotrop zu skalieren 
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(a) (b) 


Abbildung 4.11: Binärbild mit ROI um die Iris-Region (a) und extrahiertes Iris-Abbild in (b). 


und somit zu vergrößern. Der so gewonnene Ausschnitt wird auf das logarith- 
misch transformierte Bild angewendet. Innerhalb dieses Ausschnitts wird in 
einem nächsten Schritt die Pupille detektiert, um einen weiteren Schwellwert 
zu generieren. Dieser Schwellwert wird auf Abbildung 4.11 (b) angewendet. 
Das resultierende Binärbild wird invertiert, wodurch eine Maske entsteht, mit 
der die Pupille ausgeblendet wird. Mit Hilfe der Iris-Maske in Abbildung 4.12 
(a) kann jetzt die Iris vollständig aus dem Bild extrahiert werden. In Abbil- 
dung 4.12 (b) ist der segmentierte Bereich der Iris im vergrößerten Ausschnitt 
als Binärbild dargestellt. 


Das Binärbild in Abbildung 4.12 (b) kann jetzt dazu verwendet werden, Rand- 
punkte der Iris zu lokalisieren. In der weiteren Modellierung wird zunächst 
angenommen, dass die Iris ein Kreis ist. Die Abbildung einer Iris bildet jedoch 
selten einen vollständigen Kreis. Dies ist durch perspektivische Verzerrun- 
gen und durch die Verdeckung durch die Augenlider zu erklären. Aus diesen 
Grund werden zunächst die Randpunkte im Binärbild extrahiert. Die Punkte 
werden dann dazu verwendet, die konvexe Hülle dieser Punkte zu bestimmen. 
Alle Punkte, die auf der konvexen Hülle liegen, werden als Messwerte des 
Iris-Rands interpretiert. Die resultierenden Messpunkte werden als Messung 
für das Tracking verwendet. Zur Visualisierung der erfolgten Segmentierung 
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(a) Iris-Maske (b) Iris 


Abbildung 4.12: Iris Maske nach zwei-stufiger Schwellwertanwendung (a) und resultierendes 
Binärbild zur Extraktion der Iris (b). 


Abbildung 4.13: Segmentierte Iris mit markiertem Iris-Rand basierend auf Abbildung 4.11 


wurden die Messpunkte als Polygon zusammengefasst und in das Ausgangs- 
bild eingezeichnet. Abbildung 4.13 zeigt das Ergebnis der Segmentierung. 


Der segmentierte Iris-Rand wird als Messung im Iris-Tracker verwendet. Dazu 
müssen die Unsicherheiten der Randpunktmessungen beurteilt und beschrie- 
ben werden. 
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Abbildung 4.14: Ungenauigkeit der extrahierten Randpixel aufgrund des Bildrauschens. 


4.3.2 Messunsicherheiten der Iris-Messungen 


Aufgrund von verrauschten Kamerabildern, sowie von Unscharfe, die durch 
Bewegung des Probanden entstehen können, kann es zu unscharfen Darstel- 
lungen des Iris-Rands kommen. Diese Unsicherheiten müssen modelliert wer- 
den, damit eine Verwendung der Randpunkte als Messung im Tracker durch- 
geführt werden kann. Unscharfe Ränder führen zu verwischten Gradienten. 
Zur Quantifizierung des Messrauschens wurden in einem empirischen Ver- 
such die Gradienten bestimmt und deren Länge gemessen. Zusätzlich wurde 
dabei eine Segmentierung der Iris durchgeführt und mit annotierten Bildern 
verglichen. Durch den empirischen Versuch ergibt sich eine mittlere Abwei- 
chung von 5 Pixeln für die Randpunkte von der wahren Position. Abbildung 
4.14 zeigt exemplarisch eine solche Abweichung dargestellt. 


Zur Charakterisierung des Messrauchens muss die Kovarianzmatrix einer 
Messung bestimmt werden. Hierzu wird zunächst die Annahme getroffen, 
dass alle Messpunkte unabhängig voneinander sind. Das hat den Vorteil, dass 
die Kovarianzmatrix als Diagonalmatrix definiert werden kann. Ausgehend 
von der vorherigen Analyse des Fehlers, basierend auf den verwischten 
Gradienten kann durch 


C, = diag {7,07} =25 (4.51) 
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die zu den Messungen gehörige Kovarianzmatrix als Diagonalmatrix angege- 
ben werden. Die Kovarianzmatrix wird benötigt, um die Messungen im Fil- 
terschritt des Trackers verwenden zu können. 


4.3.3 Tracker Definition 


Im Modell wird die Iris in Form eines Kreises repräsentiert. Mit einer punkt- 
förmigen Repräsentation kann zum Beispiel nur der Mittelpunkt der Iris ge- 
trackt werden. Damit können keine weiteren Informationen aus dem Tracking 
abgeleitet werden. Zum Beispiel kann mit einem Kreismodell das Tracking mit 
einer gleichzeitigen Identifikation der Iris verbunden werden. Ebenso ist es 
mit einer ausgedehnten Betrachtung möglich abzuleiten, wohin ein Mensch 
blickt. Für ein Tracking mit ausgedehnten Objekten muss das klassische Tra- 
cking zunächst angepasst werden, insbesondere im Filterschritt. Es muss ei- 
ne Repräsentation definiert werden, die die gesamte Iris als Objekt enthält. 
Weiter oben wurde bereits erwähnt, dass die Gestalt der Iris einem Kreis ent- 
spricht. Somit muss das Shape-Modell ein Kreis sein. Wichtig für ein solches 
Shape-Modell ist die Darstellung in Parameterform. Durch 


®()=| (4.52) 


Xm +r-cos(s) 
Ym +r: sin(s) 


ist eine Parameterform gegeben, wobei das Subskript x auf die Abhängig- 
keit von den Parametern hindeutet. Als Parameter werden der Mittelpunkt 
Xu = [Xu yal. und der Radius r des Kreises verwendet. Durch s € [0, 27) 
wird ein Laufparameter definiert, der die Punkte auf der Kreisoberflache de- 
finiert. Der Parameter s wird benötigt, damit die Randpunkte der Iris in Zu- 
sammenhang mit dem Formmodell gebracht werden können. Die Koordinaten 
des Mittelpunkts und der Radius des Kreises bilden zusammen den System- 


zustand für den Tracker. Somit kann durch 


T 
Xk = [xm Ymr] (4.53) 
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der Systemzustand des Iris-Trackers definiert werden. Mittelpunkt und Radius 
sind veranderlich, da sie stark von der Kameraposition und dem Abstand der 
Person zur Kamera abhängen. Zusätzlich zu den äußeren Parametern führt 
die Person autonome Bewegungen mit dem Augen durch, wodurch keine ko- 
ordinierte Bewegung der Iris angenommen werden kann. Somit können koor- 
dinierte Modelle wie das Constant Velocity Modell nicht verwendet werden. 
Da keine Annahme über das Bewegungsmodell getroffen werden kann, wird 
in diesem Fall ein Constant Position Modell eingesetzt. Mit 


100 
A=|0 10 (4.54) 
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kann das Bewegungsmodell fiir das Trackingsystem angegeben werden. Mit 
dem Systemmodell wird die erwartete systematische Veranderung des Sys- 
temzustands beschrieben. Diese systematische Veränderung unterliegt Unsi- 
cherheiten, da die Natur nicht vollständig korrekt durch das Systemmodell be- 
schrieben werden kann. Über eine unkorrelierte Rauschkovarianzmatrix wird 
diese Unsicherheit des Systems beschrieben. Der Systemzustand enthält zwei 
Größen, den Mittelpunkt der Iris und den Radius der Iris, wobei der Mittel- 
punkt durch zwei Komponenten beschrieben wird. Der Mittelpunkt der Iris 
kann sich durch Bewegungen des Auges, und des Kopfes im beobachteten Be- 
reich verschieben. Ebenso kann der Radius der Iris durch Veränderung der 
Beobachtungsentfernung Änderungen unterliegen. Die schnellste mögliche 
Bewegung des Auges ist die sogenannte Sakkade. Eine Sakkade ist eine sehr 
schnelle Bewegung des Auges, die während der Durchführung der Bewegung 
keine Informationsverarbeitung enthält. Eine Sakkade kann Winkelgeschwin- 
digkeiten von bis zu 900” erreichen. Aufgrund dieser möglichen Fehlerquel- 
len muss die Kovarianzmatrix des Systemrauschens die Therme o2 und a 
enthalten. Wie bereits weiter oben erwähnt unterliegt auch der Radius der 
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Iris möglichen Veränderungen. Zum Beispiel durch Erhöhung oder Verringe- 
rung des Abstands zur Kamera. Daraus leitet sich der Therm a? ab. Mit der 
Definition dieser Größen ergibt sich durch 


a 0 0 
Cy=|0 5 Öl, (4.55) 
0 0 œ 


die Kovarianzmatrix des Systemrauschens. Die Unabhangigkeit der System- 
komponenten kann dadurch begründet werden, dass eine isolierte Transla- 
tion der x-Komponente des Mittelpunktes auftreten kann, ebenso wie eine 
isolierte Translation des y-Wertes. Außerdem verändert sich durch eine rei- 
ne Translation des Mittelpunktes der Radius der Iris nicht. Durch eine reine 
Erhöhung oder Verringerung des Radius, wird sich die Position des Mittel- 
punktes nicht verändern. 


Im Hinblick auf die Experimente für das Tracking der Iris kann der Messauf- 
bau zur Quantifizierung der Rauschterme verwendet werden. Es kommt eine 
Kamera mit einer Bildwiederholrate von 60 Bildern pro Sekunde zum Ein- 
satz. Ausgehend von physiologisch ermittelten Bewegungsgeschwindigkei- 
ten [Sch00] ergibt sich eine Standardabweichung von 15 Grad im Bild bei ge- 
gebener Bildwiederholrate, das unter Verwendung der optischen Eigenschaf- 
ten der Kameraoptik und einer angenommenen festen Entfernung von 80 cm 
zur Kamera eine positionelle Veränderung des Mittelpunktes einer Fläche von 
22px? entspricht. Somit können die Rauschterme durch oy = 0, = 22 ange- 
geben werden. Der ermittelte Radius der Iris unterliegt aufgrund der Schät- 
zung einem weiteren Fehler, dieser kann mit einer Standardabweichung von 
o, = 3.5 Pixeln angegeben werden. 


Mit der Definition der Kovarianzmatrix des Systemrauschens kann durch 


Kr 5A Xf (4.56) 
CP =A ChAT + CP (4.57) 
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der pradizierte Systemzustand x 41 sowie die prädizierte Systemkovarianz- 
matrix Cc. 4 berechnet werden. Dieser Schritt entspricht einem linearen Prä- 
diktionsschritt, wie er für ein lineares Kalman Filter in Abschnitt 3.2 definiert 
wurde. 


4.3.4 Messmodell für das Iris-Tracking 


Mit dem Systemzustand wird ein ausgedehntes Objekt beschrieben. Als Mes- 
sungen werden Punkte auf dem Rand der Iris verwendet. Das Messmodell 
muss die gemessenen Randpunkte der Iris mit dem ausgedehnten Objekt in 
Verbindung bringen. Beim Tracking ausgedehnter Objekte, wie es zum Bei- 
spiel in Zea et al. [Zea14] oder Faion et al. [Fail5] angewandt wird, kommt das 
sogenannte Greedy Association Model (GAM) zum Einsatz. Das GAM geht 
davon aus, dass jeder gemessene Punkte eine generierende Quelle besitzen 
muss. Eine generierende Quelle ist zum Beispiel ein Punkt, der fiir die Emissi- 
on einer Messung zuständig ist. Das heißt, jedem gemessenen Punkt muss die 
potentiell zugehörige generierende Quelle zugeordnet werden. Mathematisch 
kann das GAM als Abbildung aufgefasst werden, die jeder Messung y seine 
generierende Quelle s zuordnet. Durch 


z (y) =s (4.58) 


wird diese Abbildung definiert. Für das ausgedehnte Iris-Modell, einem Kreis, 
entspricht die generierende Quelle s dem Winkel, in dessen Richtung eine 
Gerade durch den Ursprung des Kreises und die Kreisoberfläche verläuft. Der 
Verlauf einer solchen Geraden, sowie der gesuchte Winkel sind in Abbildung 
4.15 dargestellt. 


In Abbildung 4.15 sind ein gemessener Iris-Rand, der geschätzte Mittelpunkt 
des Kreises und der zugehörige Kreis eingezeichnet. Ausgehend von einem 
Punkt auf dem gemessenen Iris-Rand wird die Gerade mit dem Mittelpunkt 
und dem Punkt auf dem Iris-Rand bestimmt. Der gesuchte Winkel s ergibt 
sich als Winkel zwischen der Geraden, die in Richtung 0 Grad, ausgehend 
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(a) (b) 


Abbildung 4.15: Erlauterung des GAM Prinzips (a) und Bestimmung des Winkels (b) anhand 
einer Iris-Messung. 


vom Mittelpunkt, den Kreis durchstößt und der neuen Geraden durch den 
Iris-Randpunkt. Unter Anwendung des GAM kann jetzt für jede Randpunkt- 
messung y der zugehörige Winkel s; bestimmt werden, sodass die Messungen 
direkt im Filterschritt eines Filters verwendet werden können. Da das Mess- 
modell nichtlinear ist, kann kein lineares Kalman Filter verwendet werden. 
Daher wird das UKF zur Ausführung des Filterschritts angewendet. 


Durch den Prädiktionsschritt sind der Mittelwert x und die Kovarianzma- 
trix cP bekannt. Nach der Definition von Huber et al. [Hub08] kann die An- 
nahme getroffen werden, dass die prädizierte Dichte als Gaußdichte vorliegt, 
da diese vollständig durch Mittelwert und Kovarianzmatrix bestimmt wer- 
den kann. Durch Anwendung des Vorgehens in 3.2.4, werden basierend auf 
fo) =N (x _ XE ‚CH ) skalierte, symmetrische Sigmapunkte x, berech- 
net. Die Skalierung und die symmetrische Verteilung der Sigmapunkte ent- 
spricht dem resultierenden Kovarianzellipsoid. Somit finden sich Kovarianz- 
matrix und Mittelwertvektor in den Sigmapunkten wieder. Jedem Sigmapunkt 
x, ist ein Gewichtungsfaktor w; zugeordnet. Mit den generierenden Quellen 
sj aus der Randmessung der Iris für den Filterschritt, werden mit den Mess- 
modell Sigmapunkte der Messdichte bestimmt. Mit 


y, = $x ($) (4.59) 
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wird ein Sigmapunkt für die prädizierte Messung erzeugt, wobei s = 
[Sy], °° el alle potentiellen Quellen enthält. Somit ergibt sich ein Mess- 
vektor. Für jeden der Sigmapunkte der prädizierten Dichte werden einzelne 
Messvektoren basierend auf den potentiellen Quellen bestimmt. Die so ent- 
standenen Sigmapunkte der Messdichte können jetzt dazu verwendet werden, 
den Mittelwert und die Kovarianzmatrix der Messdichte zu bestimmen. Unter 
Verwendung des Stichprobenmittelwerts und der Stichprobenkovarianzma- 
trix werden die Momente der Messdichte berechnet. Die zugrundeliegenden 
Gewichte werden von der prädizierten Dichte übernommen. Unter Ver- 
wendung von (3.36) und (3.37) können die Messkovarianzmatrix sowie die 
Kreuzkovarianzmatrix bestimmt werden. Diese beiden Matrizen werden 
dazu benötigt, um das Kalman-Gain aus (3.38) zu berechnen. Mit Hilfe des 
Kalman-Gains, sowie der prädizierten Messung 


L 
y=) oy, (4.60) 
Z i=1 4 


können jetzt der Mittelwert und die Kovarianzmatrix der geschätzten Dichte 
ermittelt werden. Dazu werden (3.39) und (3.40) angewendet. Hierdurch ergibt 
sich eine verbesserte Schätzung des Systemzustands, wodurch die Position 
und Größe der Iris geschätzt werden können. 


Der Tracker wird rekursiv angewandt, um die Iris über die Zeit tracken zu 
können. Liegt einmal keine Messung vor, so wird die prädizierte Dichte als 
Schätzung verwendet. Sobald erneut eine Messung vorliegt, erfolgt eine Ver- 
besserung der Schätzung durch Anwendung eines erneuten Filterschritts. 


Der entwickelte Tracker für die menschliche Iris wird in Simulationen er- 
probt. Der folgende Abschnitt behandelt diese Simulationen. 


4.3.5 Iris-Tracking: Experimente 


Als Datengrundlage für das Experiment wird eine Bildsequenz eines mensch- 
lichen Gesichts verwendet. Die verwendete Kamera ist vom Typ Flea 3 USB 
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3 der Firma Point Grey. Diese Kamera wird mit 60 Frames pro Sekunde (FPS) 
betrieben. Die Kamera wurde an einer Stelle fixiert und so ausgerichtet, dass 
sie das Gesicht im Zentrum des Bildes aufnehmen konnte. Zur Beleuchtung 
der Szene wurden drei LED-Arrays eingesetzt. Die LED-Arrays beleuchten die 
Szene im nahen Infrarot-Spektralbereich. Das menschliche Auge ist in nahen 
Infrarotbereich gut vom restlichen Gesicht zu unterscheiden, insbesondere 
ist die Pupille sehr gut sichtbar. Ein weiterer Grund fiir die Nutzung dieses 
Spektralbereichs ist die Sensitivitat der Kamera. Die Kamera ist eine Grau- 
wertkamera. Die LED-Arrays sind Teil eines Eye-Trackers, der am Fraunho- 
fer IOSB entwickelt wurde. Die LED-Arrays wurden so konfiguriert, dass sie 
alternierend aufleuchten. Somit ist keine konstante Beleuchtung vorhanden. 
Hierdurch weisen die entstandenen Bilddaten unterschiedliche Beleuchtungs- 
situationen auf. 


Fir die Aufnahmen wurde ein Proband gebeten, mit offenen Augen vor der 
Kamera zu verweilen ohne zu blinzeln. Es wurden mehrere Sequenzen aufge- 
nommen. Unter diesen Sequenzen wurde die Sequenz gewählt, bei der es dem 
Probanden gelang, die Augen am längsten aufzulassen. Die gewählte Aufnah- 
me beinhaltet 282 Einzelbilder. Um die Grundgesamtheit der Bilddaten zu er- 
höhen, werden wiederholte, zufällige Permutation der 282 Bilder gesammelt. 
Durch dieses Vorgehen resultiert eine Videosequenz mit 1128 Einzelbildern. 
Weiterhin werden die Einzelbilder vorverarbeitet. Aus jedem der Gesichtsbil- 
der wird das linke Auge des Probanden extrahiert. Aus der Extraktion des Au- 
ges sind Bildausschnitte mit variabler Größe entstanden. Die kleinsten Aus- 
schnitte besitzen eine Größe von 112 x 116 Pixeln, wohingegen der größte 
Ausschnitt eine Fläche von 136 x 140 Pixeln misst. Diese entstandenen Bild- 
ausschnitte wurden entlang einer randomisierten Trajektorie in einen grau- 
en Hintergrund eingebettet. Für jeden Bewegungspunkt wurde ein neues Bild 
generiert. Da auch die Augenbilder variable Beleuchtungssituationen beinhal- 
ten, wurde der Grauwert des Hintergrunds zufällig für jedes Bild aus dem In- 
tervall [200, 255] gewählt. Die zufällige Trajektorie ist in Abbildung 4.16 (a) 
abgebildet. Abbildung 4.16 (b) zeigt eines der generierten Bilder. 


Mit diesem Experiment wird gezeigt, dass der vorgeschlagene Algorithmus 
der Iris auf einer zufälligen Trajektorie folgen kann. Die Bilder werden so 
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y-Positions 
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Abbildung 4.16: Zufällige Trajektorie entlang der die extrahierten Augenbilder in Einzelbilder 
eingebettet wurden (a). Ein Beispiel für ein Einzelbild (b) aus dieser Serie. 


positioniert, dass der Mittelpunkt der Pupille entlang der Trajektorie bewegt 
wird. Somit wird ein direkter Vergleich des geschätzten Mittelpunkts der Iris 
mit der tatsächlichen Position möglich. Zusätzlich ist für jedes Bild der Se- 
quenz die Größe der Iris bekannt. Der Vergleich der realen Trajektorie mit 
der aus der Schätzung resultierenden Trajektorie ist in Abbildung 4.17 darge- 
stellt. Zur Verdeutlichung der Trackingqualität werden in Abbildung 4.17 (a) 
der Verlauf des x-Wertes der Trajektorie mit der Schätzung verglichen und in 
Abbildung 4.17 (b) der Verlauf des y-Wertes der Trajektorie mit der Schätzung. 


Die in Abbildung 4.17 gezeigte Schätzung ist gut an den wahren Verlauf der 
Trajektorie angepasst. In der x-Richtung ist eine größere Abweichung von 
der wahren Trajektorie zu erkennen als bei der y-Trajektorie. Zur Verdeutli- 
chung des Positionierungsfehlers werden der x- und y-Fehler unter Anwen- 
dung der euklidischen Distanzfunktion zusammengefasst. Der resultierende 
Positionierungsfehler ist in Abbildung 4.18 dargestellt. 


Durch Mittelung der Positionierungsfehler wurde eine mittlere Fehlerdistanz 
von Epos = 10.1 + 4.9px bestimmt. 


Neben der Bestimmung des Iris-Mittelpunkts erfolgt eine Schätzung des Ra- 
dius der Iris. Zur Bestimmung des wahren Radius wurde für jedes Bild der 
Rand der Iris manuell annotiert. Unter Verwendung der Annotation erfolgte 
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y-Koordinate in Pixel 
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Abbildung 4.17: Vergleich der geschätzten und wahren Trajektorie der dargestellten Iris in (a) 
x-Richtung und (b) y-Richtung. 


die Schätzung des kleinsten Kreises, der den Rand enthält. Basierend auf der 
Kreisschätzung wurde so der wahre Radius geschätzt. Zur Ermittlung des Feh- 
lers bei der Radius-Schätzung wurden die ermittelten Werte direkt mit dem 
geschätzten Radius verglichen. Das Ergebnis der Schätzung des Radius, sowie 
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Abbildung 4.18: Fehler der Positionsbestimmung des Iris-Mittelpunktes für jedes Bild der Se- 
quenz. 


der wahre Radius sind in Abbildung 4.19 (a) dargestellt. Abbildung 4.19 (b) 
stellt den resultierenden Fehler dar. 


Nach Auswertung des Radius-Fehlers ergibt sich ein systematischer Fehler 
von 5.6 Pixeln mit einer Standardabweichung von 1.6 Pixeln für die Schätzung 
des Radius. Somit ist der mittlere Fehler für die Schätzung des Radius sehr 
viel geringer als der Positionierungsfehler. Zusätzlich ist sichtbar, dass der 
geschätzte Radius immer etwas größer ist als der wahre Radius. Dieser Fehler 
scheint vernachlässigbar, da hierdurch kein Nachteil entsteht. Zusätzlich ist 
durch Verwendung eines ausgedehnten Objekts als Zustand garantiert, dass 
die vollständige Iris während des Trackings innerhalb des Modells enthalten 
ist. Die resultierenden Fehler für das Tracking zeigen, dass der vorgeschlagene 
Tracker in der Lage ist, der Iris zu folgen. 


4.3.6 Iris-Tracking: Zusammenfassung 


Mit dem vorgestellten Trackingansatz wurde gezeigt, dass durch die Verwen- 
dung eines ausgedehnten Objekts eine genaue Schätzung der Position des 


113 


4 Tracking von Punkt- und ausgedehnten Objekten 


Radius (pixels) 


0 200 400 600 800 1000 


Image number 
(a) 

147 T T T T T 

12} 4 

10> 4 
a 
v 
x 
& st 
5 
E 
Ww | 
26 
2 
iyi 
a 

4 

2 4 

ol ni aki i „2 

0 200 400 600 800 1000 
Image numbers 
(b) 


Abbildung 4.19: Vergleich zwischen dem geschätzten Radius (rot) und dem wahren Radius 
(grün) in (a) und der resultierende Fehler in (b). 


verfolgten Objekts möglich ist. Zudem wurde gezeigt, dass eine geschickte 
Wahl einer ausgedehnten Objektbeschreibung weitere Verarbeitungsschritte 
des Trackingergebnisses ermöglicht. In dem beschriebenen Experiment wur- 
de eine Trajektorie für das linke Auge simuliert. Diese Trajektorie entspricht 
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vermutlich nicht dem physiologischen Bewegungsmuster eines Auges. Den- 
noch war der Tracker unabhängig von der gewählten Bewegung in der Lage 
der Iris zu folgen. Weiter konnte gezeigt werden, dass zu keinem Zeitpunkt 
die Gefahr bestand, dass der Tracker die Iris verliert. Grundsatzlich schien 
der Tracker die Größe der Iris leicht zu überschätzen; allerdings entspricht 
das bei einem systematischen Fehler von 5.6 Pixeln mit einer Standardabwei- 
chung von 1.6 Pixeln ungefähr dem Rauschen des Bilds. Somit kann davon 
ausgegangen werden, dass der Tracker bei geringerem Bildrauschen sowie 
sehr gut eingestellten Parametern für die Rauschterme eine weitaus genauere 
Schätzung liefern kann. 


Abschließend bleibt zu sagen, dass die Verwendung einer ausgedehnten Re- 
präsentation des Systemzustands in Verbindung mit dem GAM eine gut funk- 
tionierende Kombination ist. Aus diesem Grund wird eine ähnliche Vorge- 
hensweise für das Tracking des Gesichts gewählt. 


4.4 Tracking des menschlichen Gesichts 


Um weitere Analysen des menschlichen Gesichts in einer dynamischen Um- 
gebung zu ermöglichen, ist das Tracking des Gesichts notwendig. Diese wei- 
teren Analysen erfordern ein ausgedehntes Beschreibungsmodell für das Ge- 
sicht. Ein Landmarkenmodell, wie es in Abschnitt 3.1 eingeführt wurde, stellt 
eine geeignete Darstellungsform dar. Dieses Landmarkenmodell umfasst 68 
einzelne Punkte. Die Punkte können in Zwischenpunkte und echte Land- 
marken unterteilt werden. Unter echten Landmarken versteht man Punkte 
im Gesicht, die prominent sind. Dies können zum Beispiel die Augenwinkel 
und Mundwinkel sein. Die Zwischenpunkte liegen auf Kurven, die die ech- 
ten Landmarken miteinander verbinden. Die Zwischenpunkte werden durch 
diese Kurven interpoliert und in gleichmäßigen Abständen platziert, siehe 
Cootes et al. [Coo00]. Die Landmarken werden unter Verwendung von De- 
tektionsmethoden extrahiert. Beispiele für Detektionsmethoden sind in Ab- 
schnitt 3.1 aufgelistet. Für das hier beschriebene Tracking wird der von Qu et 
al. in [Ou15a] beschriebene Detektionsalgorithmus verwendet. Eine genauere 
Beschreibung des Algorithmus kann in Abschnitt 3.1.1 nachgelesen werden. 
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Abbildung 4.20: Subjekt S055 der CK Datenbank (©J. Cohn) mit an das Gesicht angepasstem 68 
Punkt-Landmarkenmodell. 


Der Detektionsalgorithmus passt das Landmarkenmodell mit 68 Punkten an 
ein neues Gesicht an. Die Ausgabe mit angepassten Landmarken ist am Bei- 
spiel eines Gesichts mit erfreutem Ausdruck in Abbildung 4.20 dargestellt. 
Das Bild enstammt der Cohn-Kanade+ Datenbank (CK), die von Lucey et al. 
[Luc10b] veröffentlicht wurde. Das Bild zeigt Subjekt S055 bei vollem Aus- 
druck der Emotion Freude. Die CK-Datenbank enthält eine Sammlung vonBil- 
dern in verschiedenen Emotionen. Grundsätzlich sind dort folgende Emotio- 
nen enthalten: Wut, Ekel, Furcht, Freude, Traurigkeit und Überraschung. Diese 
sechs Emotionen entsprechen den sogenannten Basisemotionen nach Ekman 
in [Ekm99]. Die Bilder in der CK-Datenbank sind in Sequenzen angeordnet. 
Jede dieser Sequenzen beginnt mit dem neutralen Ausdruck und endet mit 
einem vollen emotionalen Gesichtsausdruck. 


Die weiteren Analysen haben das Ziel, den emotionalen Zustand der beob- 
achteten Person auswerten zu können. Daher muss das Trackingsystem die 
Form des Gesichts erhalten und mit einer hohen Genauigkeit wiedergeben. 
Grundlegend, um eine hohe Genauigkeit zu erlangen, ist die Verwendung ei- 
nes zuverlässigen Extraktionsalgorithmus. Der Extraktionsalgorithmus wird 
verwendet, um eine Beobachtung oder Messung des Gesichts vorzunehmen. 
Eine Messung wird durch 68 Punkte repräsentiert. Das verwendete Medium 
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zur Beobachtung des Gesichts ist eine Kamera. Es liegen keine Tiefeninfor- 
mationen vor. Die Punkte werden als zweidimensionale Vektoren 


- (4.61) 


2,7 [xi, yi] 
repräsentiert, wobei i € {0,1,...,67} gilt. Die direkte Beobachtung des Ge- 
sichts durch eine Kamera erfordert eine Kommunikationssituation zwischen 
einem Menschen und einem Computersystem oder Roboter. Das Gesicht ist 
in einer solchen Situation zumeist frontal sichtbar, wobei zeitweise Verde- 
ckungen durch Hände oder Haare vorkommen können. Zur Erhaltung der 
durch das Modell gegebenen Form ist es notwendig, Randbedingungen für 
den Trackingalgorithmus zu formulieren. 


Die weiteren Unterabschnitte des Gesichtstrackings bauen sich wie folgt auf: 
zunächst werden das grundlegende Trackingmodell mit System- und Mess- 
modell und die zu beschreibenden Randbedingungen definiert. Dann erfolgt 
die Definition eines einfachen Trackers auf Basis eines Kalman Filters. Im dar- 
auffolgenden Abschnitt wird das Modell um die definierten Randbedingun- 
gen, die zur Erhaltung der Form beitragen, erweitert. Abschließend erfolgt 
eine Evaluation des vorgestellten Modells und eine Zusammenfassung des 
Gesichtstrackings. 


4.4.1 Trackingmodell für das Gesichtstracking 


Durch das Tracking der Gesichtslandmarken wird zu jeder Zeit eine Repräsen- 
tation der Gesichtsform beobachtet. Damit ein funktionaler Zusammenhang 
zwischen zwei Zeitschritten aufrechterhalten werden kann, muss das Land- 
markenmodell in ein Referenzkoordinatensystem überführt werden. Unter 
Verwendung der Procrustes Analyse [Ken89] können beliebige, durch Punkt- 
mengen definierte Formen unter Erhalt der eigenen Form in ein Referenz- 
koordinatensystem transformiert werden. In der Procrustes Analyse werden 
dazu drei Transformationen ausgeführt: Translation zum Ursprung des Ko- 
ordinatensystems, isotrope Skalierung und Rotation zur Ausrichtung einer 
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mittleren Form. Die zusammengesetzte Transformation entspricht einer geo- 
metrischen Ahnlichkeitstransformation. Für die Verwendung der Procrustes 
Analyse wird zunächst eine mittlere Form benötigt. Diese wird anhand einer 
Trainingsmenge von extrahierten Landmarken generiert, indem alle vorher 
beschriebenen Schritte durchgeführt werden. Eines der verwendeten Trai- 
ningssamples wird zufällig als mittlere Form angenommen. Die Form wird 
nach den Schritten solange durch die Mittelung der resultierenden Formen er- 
setzt, bis die neue mittlere Form sich nicht mehr von der vorher verwendeten 
unterscheidet. Die drei benötigten Transformationen werden im Folgenden 
beschrieben. 


Zur Ermittlung des Verschiebungsvektors wird der Mittelwert der Punkte be- 
rechnet und durch 


j IS 0;; 
p =p --),p VYjinfLn}, (4.62) 
= =j n fai 

werden die einzelnen Punkte des Modells verschoben, wobei n = 68 gilt. Im 
nachsten Schritt erfolgt die isotrope Skalierung des Modells. Der Skalierungs- 


faktor wird durch Berechnung der mittleren Root Mean Squared Distance 
(RMSD) der Punkte bestimmt. Durch 


s= 01-20 + 01-9 (4.63) 
i=1 


wird der Skalierungsfaktor s berechnet, wobei durch [8,517 der Mittelwert 
der Punkte beschrieben wird, der durch die Skalierung im Ursprung liegt, d.h. 
[x, >] =[0, oy’. Durch den Skalierungsfaktor s wird dazu verwendet, um zu 
garantieren, dass die RMSD aller zum translatierten Mittelpunt 1 betragt. Im 
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letzten Schritt wird das gesamte Modell rotiert und an die mittlere Form ange- 
passt. Die Rotationskorrektur wird durch Anwendung einer Rotationsmatrix 


_ |cos($) —sin(¢) 
R=Isin($) _ cos(¢) ate, 


durchgeführt, wobei der Parameter ¢ der Rotationswinkel zur Anpassung des 
Modells an die mittlere Form ist. Der Rotationswinkel ¢ muss für jede Form 


durch 


$ = tan“! Sa (wi “Yi - Zi: xi) (4 65) 
er (Ww; Xi + Zi- yi) 


zwischen zwei Formen P und W, wobei p = [xn yil E€ P miti € [1,n] und 
=—h 


w, = [w,z;]” E W miti € [1,n] berechnet werden. Die Form P entspricht 
der mittleren Form und die Form W ist die anzupassende Form. Für die Er- 
mittlung der mittleren Form muss die Procrustes Distanz berechnet werden. 
Wird hier ein Schwellwert unterschritten, kann die Auswahl der mittleren 
Form beendet werden. Die Procrustes Distanz kann durch 


er) [(w; — xi) + (z - yi’ | (4.66) 
i=1 


berechnet werden, wobei durch [x;, yl die Punkte der mittleren Form reprä- 
sentiert werden und [uj, zl" die Punkte der angepassten Form sind. Nach- 
dem die beobachtete Form durch die Procrustes Analyse in das Referenzkoor- 
dinatensystem überführt wurde, kann der Systemzustand definiert werden. 


Ausgehend von den 68 Punkten des Landmarkenmodells können 136 einzelne 
Koordinaten aus dem Modell extrahiert werden. Diese 136 Werte setzen sich 
aus den jeweils 68 x- und y-Werten der Landmarken zusammen. Die ersten 
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Abbildung 4.21: Das Landmarkenmodell mit 68 geordneten und gezählten Punkten als mittlere 
Form aus einer Menge mehreren Gesichtern. 


68 Eintrage beinhalten die x-Werte und in den restlichen 68 befinden sich die 
y-Werte. Die Werte unterliegen einer festen Sortierung, die auf einer festen 
Nummerierung der Landmarken im Modell basiert. Die Nummerierung der 
Landmarken ist in Abbildung 4.21 dargestellt. Der Systemzustand kann durch 


T 
x, = Past Xn Y1 Yn] (4.67) 


angegeben werden. Für das Tracking wird ein Bewegungsmodell benötigt, 
dass die Annahme über wahrscheinliche Bewegungen des Gesichts model- 
liert. Da es schwierig ist, eine koordinierte Bewegung für das Gesicht anzu- 
nehmen, wird in diesem Fall das konstante Positionsmodell (CP) aus Abschnitt 
3.2.2 verwendet. Die Dimension des Zustandsvektors in (3.14) muss von 2 auf 
136 Elemente angepasst werden, wodurch sich das Systemmodell durch eine 
Matrix A = I € R!6*136 beschreiben lässt. Das Systemrauschen wird als 


unkorreliertes, weißes Rauschen mit Kovarianzmatrix 
Cy = diag {o2,,---, 0%, = I- of, (4.68) 
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angenommen. 


Das Messmodell des Trackers entspricht einer direkten Abbildung des Sys- 
temzustands und entspricht, wie das Systemmodell der Einheitsmatrix. Die 
realen Beobachtungen werden unter Verwendung des Landmarkendetektors 
von Qu et al. [Qu15a] bereitgestellt. Die realen Messungen müssen durch die 
Procrustes Analyse in das Referenzkoordinatensystem überführt werden. Die 
Matrix H = I reprasentiert das Messmodell. Das Messrauschen wird als un- 
korreliertes, weißes Rauschen modelliert, wodurch die Kovarianzmatrix durch 


C, = diag {ag,---,0g} = I- of (4.69) 


angegeben werden kann. 


Um den Filterschritt durchführen zu können, muss eine reale Beobachtung 
Ts des Landmarkendetektors vorliegen. Unter Verwendung des Messmo- 
dells können im Filterschritt die Messkovarianzmatrix (3.21) und der Inno- 
vationsvektor (3.20) bestimmt werden. Hierzu wird mit dem Messmodell die 
pradizierte Messung 


y? = xP (4.70) 
berechnet. Um mit der Messung die aktuelle Schätzung des Filters zu ver- 
bessern, muss zunächst das Kalman-Gain durch (3.22) bestimmt werden. Das 
Kalman-Gain wird dazu verwendet, die aktuelle Messung mit dem prädi- 
zierten Zustand zu verbinden und eine verbesserte Schätzung des aktuellen 
Zustands zu erhalten. Die aktuelle Schätzung wird unter Verwendung des 
Kalman-Gains und den Gleichungen (3.23) und (3.24) verbessert. Das Resultat 
sind der geschätzte Systemzustand x, , und die geschätzte Kovarianzmatrix 
ce Durch das Kalman Filter wird ein rekursiver Algorithmus definiert, 


k+l" 
wodurch in jedem Zeitschritt das gleiche Vorgehen verwendet werden kann. 
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Abbildung 4.22: Ablaufplan des Trackers fiir das menschliche Gesicht. 


Abbildung 4.22 zeigt den Ablaufplan fiir den Gesichtslandmarkentracker. Der 
Tracker liefert durch den Pradiktionsschritt x? basierend auf dem aktuellen 
Zustand zurück. Der Extraktionsalgorithmus von Qu et al. liefert die aktuelle 
Messung 2 ausgehend von einem Kamerabild. Das Gating prüft, ob sich die 
gelieferte Messung von der mittleren Form unterscheidet. Hierzu wird eine 
Ähnlichkeitstransformation bestimmt und es wird geprüft, ob sich die berech- 
nete Transformation von der Einheitsmatrix unterscheidet. Falls dies nicht der 
Fall ist, so wird der prädizierte Zustand zurückgeliefert und als aktuelle Schät- 
zung an den Prädiktionsschritt geliefert. Ist der Unterschied ausreichend groß, 
werden die aktuelle Messung und der prädizierte Zustand dem Kalman Filter- 
schritt übergeben und der Filterschritt bestimmt die aktuelle Schätzung xz- 


Das vorliegende Trackingmodell geht von unabhängigen, unkorrelierten Zu- 
standsvariablen aus. Der Erhalt der Form kann nicht garantiert werden. Es 
müssen zusätzlich Randbedingungen eingeführt werden, wodurch die Nut- 
zung des linearen Kalman Filters nicht mehr ausreichend ist. 


122 


4.4 Tracking des menschlichen Gesichts 


4.4.2 Randbedingungen für einen Tracker für 
ausgedehnte Objekte 


Um die Randbedingung für die Erhaltung der Form zu definieren, wird zu- 
nächst das von Cootes et al. [Coo00] beschriebene Landmarkenmodell be- 
trachtet. Dieses Modell ist so definiert, dass Variationen des Modells, wie zum 
Beispiel unterschiedliche Gesichtsausdrücke, zugelassen werden können. Um 
diese Variabilität zuzulassen, müssen viele verschiedene Gesichtsausdrücke 
in möglichst vielen Varianten als Landmarkenmodell vorliegen. Unter An- 
wendung der Hauptkomponentenanalyse (PCA) werden die Hauptachsen des 
Modells bestimmt. Dazu ist die PCA so parametrisiert, dass 98% der Varianz 
erhalten bleiben. Damit dies gelingt wird zunächst durch 


1 N 
k= =) x, (4.71) 


der Mittelwert der Trainingssamples ermittelt, wobei N die Anzahl aller Trai- 
ningssamples ist. Der Mittelwertes £ wird verwendet, um durch 


1 Š = LT 
ea (4.72) 


die Kovarianzmatrix tiber allen Samples zu bestimmen. Zur weiteren Analy- 
se werden die Eigenvektoren ¢ und zugehörigen Eigenwerte A; der Kovari- 


l 
anzmatrix S bestimmt. Die Eigenwerte und Eigenvektoren werden absteigend 
nach der Größe der Eigenwerte sortiert. Durch 


Y,A: 20.98-Vr (4.73) 
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werden so viele Eigenwerte aufsummiert, dass die resultierende Varianz 98% 
der gesamten Varianz V r entspricht [Coo00]. Durch die Summierung wer- 
den die relevanten Eigenvektoren ausgewählt. Die zugehörigen Eigenvekto- 
ren werden zur Matrix ® zusammengesetzt, wodurch mit 


xxx +b (4.74) 


jedes Sample x der Trainingsmenge approximiert werden kann. Der Vektor 


b wird durch 


b=0".(x-x) (4.75) 


bestimmt und stellt eine Projektion in das durch die Hauptkomponenten be- 
stimmte Koordinatensystem dar. Unter Verwendung von (4.74) und (4.75) kön- 
nen beliebige Samples zurückprojiziert und in der korrekten Form fixiert wer- 
den. Dieser Vorgang wird durch einen erweiterten Filterschritt zur Korrektur 
der aktuellen Schätzung x implementiert. 


In [Jul07] haben Julier et al. einen Formalismus definiert, mit dem nichtlineare 
Randbedingungen in das Kalman Filter eingeführt werden können. Der For- 
malismus basiert auf der Verwendung der Unscented Transformation (UT) oh- 
ne eine zusätzliche Verwendung von Rauschtermen. Auf Basis der Schätzung 
x und C} werden Sigma-Punkte bestimmt. Jeder Sigma-Punkt wird durch 
(4.75) zunächst auf das Hauptkomponentensystem projiziert und durch (4.74) 
rückprojiziert. Das gleiche Vorgehen wird für die reale Messung ) ausge- 
führt. Die rückprojizierten Sigmapunkte werden entsprechend des Messmo- 
dells propagiert. Basierend auf den Sigmapunkten erfolgt durch (3.37) die Be- 
rechnung der Kreuzkovarianzmatrix c7 und durch (3.36) die Berechnung der 
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Messkovarianzmatrix ©: Die beiden Kovarianzmatrizen werden dazu ver- 
wendet, das Kalman-Gain kK; entsprechend (3.38) zu berechnen. Der korri- 
gierte Systemzustand kann durch 


xt = xe +K}. (9- y) (4.76) 


bestimmt werden. Entsprechend wird durch 


5 T 
e+ _ + y + 
Cyt =C? -Kt -C, - (Ky) (4.77) 


die korrigierte Schätzung der Kovarianzmatrix bestimmt. In Cootes et al. 
[C0000] finden sich Beispiele, die die Korrektur der Eingangsformen belegen. 
In diesem Algorithmus wird diese Korrektur dazu verwendet, damit die 
Rahmenbedingungen der Filtergleichung eingehalten werden können. 


4.4.3 Tracking des menschlichen Gesichts 


In diesem Experiment werden drei Verfahren miteinander verglichen: der vor- 
gestellte Tracker, der Landmarkenextraktor von Qu et al. [Oul5a] und der 
Landmarkenextraktor der Dlib von King [Kin09]. Es werden drei unterschied- 
liche Sequenzen aus der CK-Datenbank entnommen. Grundlage für die Aus- 
wahl ist eine Sequenzlänge von mindestens 10 Bildern. Für alle Bilder der Se- 
quenzen wurde die wahre Position der Landmarken durch den Landmarken- 
extraktor von Qu et al. [Ou15a] bestimmt. Es wurden wiederholt Schatzun- 
gen des Trackers bestimmt und durch Mittelung dieser Schätzungen wurde 
die Grundwahrheit für jedes Bild erzeugt. 
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Für das Experiment wurden alle Bilder identisch vorbereitet. Zunächst wird 
das Gesicht detektiert. Dazu wird ein neuronales Netz aus der Opensource Bi- 
bliothek OpenCV * verwendet. Das Gesicht wird ausgeschnitten und so ska- 
liert, dass das Bild 300 x 400 Pixel umfasst. Zusätzlich erfolgt eine Aufhellung 
des Bilds durch eine Gamma Anpassung, mit einem Gammawert von y = 0.5. 
Das vorverarbeitete Bild wird an den Landmarkenextraktor übergeben. 


Im Livebetrieb als Tracker wird jedes Eingangsbild äquivalent zu der weiter 
oben beschriebenen Vorgehensweise vorverarbeitet. Der Tracker verwendet 
das Gating aus Abschnitt 4.4.1. Als Landmarkenextraktor verwendet der Tra- 
cker den von Qu et al. in [Qu15a] entwickelten Algorithmus. Der Tracker 
verwendet die erste Messung als Startzustand. Danach wird fiir das Tracking 
sowie zur Anwendung der Nebenbedingung ein Unscented Kalman Filter ein- 
gesetzt. Der Trackingalgorithmus wird verglichen mit der rohen Verwendung 
des Landmarkenextraktors von Qu et al., sowie des Algorithmus von King aus 
der Dlib [Kin09]. 


Zur Bewertung der Trackingqualität wird die konvexe Hülle des geschätz- 
ten Landmarkenmodells für jeden Algorithmus bestimmt. Dann wird ein Ver- 
gleich mit der konvexen Hülle der Referenzmessung durchgeführt. Die Unter- 
schiede zwischen den Flächen werden in die Kategorien richtig positiv (TP), 
falsch positiv (FP), falsch negativ (FN) und richtig negativ (TN) eingeordnet. 
Das Kategorisieren wird entsprechend Abbildung 4.23 durchgeführt. 


Der TP-Wert entspricht der Schnittfläche zwischen beiden Polygonen. Die 
Fläche des unteren Polygons, die nicht durch die Schätzung abgedeckt wird, 
wird als FN kategorisiert. Alle Flächen des geschätzten Polygons, die außer- 
halb des wahren Polygons sind, werden als FP einsortiert. Als TN wird der 
Hintergrund verwendet. Die Klassifizierung der Flächen als TP, FP, FN und 


1 https://opencv.org/about.hmtl 
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Abbildung 4.23: Uberlappung zweier konvexer Polygone zur Bestimmung der Werte fiir TP, FP, 
TN und EN. 


TN ist an die Vorgehensweise von Cehovin et al. in [Ceh16] angelehnt. Hier 
werden die Flächenverhältnisse dazu verwendet, um das Überlappungsmaß 


TP 


Pt = TP+EN+EP 


(4.78) 


zu berechnen. Das Maß ¢; ist an das F-Maß angelehnt, dass einen Faktor 2 zu 
TP multipliziert. Durch wird die Präzision ausgehend von den Flächen 
berechnet. 


TP+FP 
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Tabelle 4.9: Ergebnisse fiir zehn Durchlaufe des Trackings tiber 15 Bilder der Testperson S010 
aus der CK Datenbank. Als Qualitätsmaß ¢; ist das Überlappungsmaß angegeben. 


Durchlauf Tracker Qu etal. [Ou15a] DLib [Kin09] 

1 0.9925 + 0.0144 | 0.9931 + 0.0146 | 0.9740 + 0.0035 
2 0.9900 + 0.0301 | 0.9921 + 0.0202 | 0.9740 + 0.0035 
3 0.9986 + 0.0008 | 1.0000 + 0.0000 | 0.9740 + 0.0035 
4 0.9986 + 0.0008 | 1.0000 + 0.0000 | 0.9740 + 0.0035 
5 0.9983 + 0.0009 | 0.9997 + 0.0010 | 0.9740 + 0.0035 
6 0.9983 + 0.0014 | 0.9961 +0.0146 | 0.9740 + 0.0035 
7 0.9904 + 0.0100 | 0.9834 + 0.0238 | 0.9740 + 0.0035 
8 0.9980 + 0.0023 | 0.9960 + 0.0149 | 0.9740 + 0.0035 
9 0.9977 + 0.0033 | 0.9987 + 0.0050 | 0.9740 + 0.0035 
10 0.9912 + 0.0127 | 0.9900 + 0.0186 | 0.9740 + 0.0035 


Mit einer Sequenz von 15 Einzelbildern wird das Experiment durchgeführt. 
Die Sequenz wird zehn Mal durchlaufen, um herauszufinden, ob die geliefer- 
ten Ergebnisse schwanken oder stabil sind. Tabelle 4.9 fasst die Ergebnisse der 
drei Methoden zusammen. Es fällt sofort auf, dass der Landmarkendetektor 
der DLib [Kin09] in jedem Durchlauf das exakt selbe Ergebnis liefert. Dieser 
Umstand legt die Vermutung nahe, dass die DLib für das Training des De- 
tektors die verwendeten Bildsequenzen verwendet. Aus diesem Grund wird 
der Detektor der DLib nicht weiter bewertet. Dennoch sind die Ergebnisse in 
den Abbildungen 4.25 und 4.24 enthalten. Man erkennt aber leicht, dass die 
Kurven für die DLib identisch sind. 


Der Detektor von Qu et al. [Qu15a] zeigt sehr gute Ergebnisse. Allerdings 
sind diese zu erwarten, da der Detektor zur Erstellung der Referenzflächen 
verwendet wurde. In einem weiteren Test wurde geprüft, wie sich der Tra- 
cker verhält, wenn eine Messung der Sequenz ausbleibt. Da der Tracker den 
Detektor von Qu et al. nutzt, fällt die fehlende Messung auch im Verlauf des 
Landmarkendetektors auf. Der niedrige Wert beschreibt die Überlappung der 
mittleren Form zur wahren Form. Betrachtet man Abbildung 4.24 genauer, 
kann jedoch abgeleitet werden, dass die Verwendung eines Trackers den Feh- 
ler durch das Ausbleiben der Messung reduziert. 


128 


4.4 Tracking des menschlichen Gesichts 


1.00 4 


9 
io 
© 


= 

io 

co 
f 


S 

io 

a 
f 


Überlappung der Groundtruth Region 
o oO 
wo oo 
un N 


— Tracker 
— Qu 


—— Dlib 
0.94 + 


0 2 4 6 8 10 12 14 
Tracklänge 


Abbildung 4.24: Verlauf des Überlappungsmaßes der drei Methoden mit einer Fehlmessung im 
zweiten Zeitschritt des Trackings. 


In Abbildung 4.24 ist zu sehen, dass der Landmarkendetektor für alle übrigen 
Messungen perfekte Ergebnisse liefert. Dadurch kann belegt werden, dass ein 
qualitativ hochwertiger Algorithmus als Messsystem verwendet wird. Abbil- 
dung 4.25 zeigt eine für den Landmarkendetektor von Qu et al. [Qu15a] per- 
fekte Sequenz. 


Die dargestellten Verläufe zeigen eine hohe Qualität des verwendeten Land- 
markendetektors. Die Experimente zeigten weiter, dass die verwendeten Se- 
quenzen Teil der Trainingsdaten des Detektors der DLib waren. Der Detek- 
tor von Qu et al. [Ou15a] ergibt nicht immer die gleichen Ergebnisse, jedoch 
sind die Ergebnisse zumeist von sehr hoher Qualität. Sowohl der Landmar- 
kendetektor von Qu et al. [Oul5a], als auch der Detektor der DLib erzielen 
sehr gute Ergebnisse. Für die weitere Arbeit wird der Detektor von Qu et al. 
[Ou15a] verwendet. 
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Abbildung 4.25: Verlauf des Überlappungsmaßes der drei Methoden mit einem perfekten Er- 
kennungsverlauf für den Landmarkendetektor von Qu et al. [Ou15a] 


4.5 Zusammenfassung 


In diesem Kapitel wurden verschiedene Möglichkeiten des Trackings einge- 
führt. In Abschnitt 4.1 wurde ein statischer Fall von Tracking vorgestellt. 
Hier war es das Ziel, Bild zu Bild Transformationen zu bestimmen, mit de- 
nen Objekte über eine Bildsequenz hinweg sicher markiert werden können. 
Das Tracking ist ein Fall von statischem Tracking, da hier kein Objekt im 
Bild verfolgt wurde, sondern vielmehr die Parameter zur Bestimmung der Ho- 
mographie zwischen zwei Bildern. Im Abschnitt 4.2 wurde ein Tracking für 
Punktziele am Beispiel von Flugzeugtracking vorgestellt. Für das Tracking ei- 
nes Flugzeugs wurden Messungen eines passiven Systems verwendet. Signale, 
die vom Flugzeug ausgingen, wurden von am Boden verteilten Basisstationen 
empfangen und in Pseudoabstände umgerechnet. Diese Messungen wurden 
dann mit einem linearen Regressions Kalman Filter zur simultanen Positions- 
und Offsetschätzung eingesetzt. Abschnitt 4.3 zeigt am Beispiel der Iris des 
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menschlichen Auges wie eine Form dazu verwendet werden kann, ein aus- 
gedehntes Objekt zu tracken. Das Tracking von ausgedehnten Objekten hat 
Vorteile gegenüber dem Tracking von Punktzielen. Durch die ausgedehnte 
Beschreibung des Objekts können weitere Informationen über das Objekt ex- 
trahiert werden. Im Fall der Iris könnten das zum Beispiel biometrische In- 
formationen sein. Als Messungen für dieses System wurden aus Augenbil- 
dern Randpunkte der menschlichen Iris detektiert. Unter Verwendung eines 
Greedy Association Models konnten die Randpunkte mit dem verwendeten 
Formmodell in Verbindung gebracht werden. Mit Hilfe des Unscented Kal- 
man Filters war es dann möglich, die Iris-Schätzung durch Filterung zu ver- 
bessern. In Abschnitt 4.4.3 wurde das Tracking von ausgedehnten Objekten 
auf ein Landmarkenmodell für das menschliche Gesicht angewendet. Dieses 
Landmarkenmodell enthält insgesamt 68 Einzelpunkte, sodass der Zustands- 
vektor aus genau 136 Elementen besteht. Somit wurde jeder einzelne Punkt 
für den Systemzustand verwendet. Da kein einfaches parametrisches Modell 
existiert, das dieses Formmodell erzeugt, konnte keine einfachere Formulie- 
rung für den Systemzustand gefunden werden. Für das Tracking der einzelnen 
Landmarkenpunkte des Modells wurde ein Unscented Kalman Filter einge- 
setzt. Da kein koordiniertes Bewegungsmodell für das Landmarkenmodell ge- 
funden werden konnte, wurde ein Constant Position Modell eingesetzt. Durch 
dieses Modell wird jedoch ein Fehler eingeführt, der zu einer Deformation 
des Landmarkenmodells führt. Aus diesem Grund wird eine Nebenbedingung 
eingeführt, die eine Rückführung auf das nächste korrekte Landmarkenmo- 
dell erzwingt. Dazu wird das Landmarkenmodell zunächst so in Hauptkom- 
ponenten zerlegt, dass 98% der beschriebenen Varianz erhalten bleiben. In 
diesen 98% sind nur korrekte Fälle enthalten und hochfrequentes Rauschen 
wird entfernt. Diese werden dann rückprojiziert, sodass ein Landmarkenmo- 
dell zurückgegeben wird. Zusätzlich wird ein Gating verwendet, falls falsche 
Messungen zurückgeliefert werden. In Experimenten konnte gezeigt werden, 
dass die Verwendung eines Trackingalgorithmus insbesondere dann Vorteile 
gegenüber der rohen Verwendung eines Landmarkendetektors liefert, wenn 
es zu Fehlmessungen des Landmarkendetektor kommt. Das ist insbesondere 
dann von Vorteil, wenn zum Beispiel Emotionen abgeleitet werden sollen. 
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Es gibt viele Anforderungen bei der Beobachtung und Analyse von Szenen. 
Bei einer hohen Zahl an öffentlichen Kameras kommt es zu einer immer grö- 
ßer werdenden Zahl an Bildaufnahmen, wobei die Anzahl der beobachtenden 
Personen nicht im gleichen Maß wächst. Somit müssen Beobachter für die- 
se Aufgabe trainiert werden und die Leistung einzelner Beobachter gemessen 
und über einen Verlauf eines Trainings getrackt werden. Diese Messungen 
sollten Indikatoren enthalten, über die ein Lernfortschritt festgestellt werden 
kann. 


In zwei Studien wird ein Training vorgestellt, mit dem sich die Weiter- 
entwicklung der Beobachtungsleistung einzelner Probanden bestimmen 
lässt. Zunächst werden Maßzahlen abgeleitet, die für die Feststellung von 
Leistungsindikatoren verwendet werden können. Dann werden Trainings- 
prozeduren entwickelt, mit denen die Indikatoren bestimmt werden können. 
Anhand von simulierten Bilddaten werden Probanden trainiert und mit 
vorher-nachher-Tests wird ein möglicher Trainingseffekt untersucht. Die 
zweite Studie wendet die Ergebnisse der ersten Studie an um zu zeigen, ob 
die Verwendung eines automatischen Zielerfassungssystems einen Vorteil 
für die Beobachtungsleistung liefert. 


In Abschnitt 5.1 wird untersucht ob der Mensch für das Tracking von Ob- 
jekten in Videos trainiert werden kann. Abschnitt 5.2 beschreibt den Effekt 
der durch die Verwendung eines unterstützenden, automatischen Zielerfas- 
sungssystem verursacht wird. Die Diskussion der Ergebnisse zur Bewertung 
der Beobachtungsleistung von menschlichen Beobachtern wird in Abschnitt 
5.3 besprochen. 
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5.1 Nachweis eines Trainingseffekts für 
menschliche Tracker 


Menschen sind von Natur aus in der Lage Objekte zu tracken und zu klas- 
sifizieren. In diesem Kapitel wird untersucht, ob sich durch ein Training die 
Leistung des Trackings und der Klassifikation von Objekten verbessern. Dabei 
wird das Potential, die eigene Tracking- und Klassifikationsleistung zu stei- 
gern, durch Anwendung von Beobachterversuchen analysiert. 


Ein System zur automatischen Zielerkennung kann durch Techniken des ma- 
schinellen Lernens für diese Aufgabe vorbereitet werden. Der Mensch besitzt 
jedoch von klein auf die Fähigkeit Objekte zu erkennen, sowie diese in ei- 
gener Bewegung zu verfolgen. Um ein technisches System zur Bewältigung 
einer solchen kognitiven Aufgabe korrekt bewerten zu können, muss auch 
der Vergleich mit menschlichen Beobachtern durchgeführt werden. Zu die- 
sem Zweck wird in dieser Untersuchung zunächst bewertet, ob Menschen für 
die Tätigkeit der Erkennung und Verfolgung von speziellen Objekten trai- 
niert werden können. Diese speziellen Objekte sind in diesem Fall Avatare mit 
Rucksack, die sich zwischen weiteren Avataren ohne Rucksack bewegen. Die- 
se Avatare sind Teil von simulierten Sequenzen, sogenannten Crowd Simu- 
lationen. Die Crowd-Simulationen enthalten eine festgelegte Anzahl unter- 
schiedlicher Avatare. Es kann ein fester Anteil von Avataren mit Rucksäcken 
gewählt werden, die dann zufällig zu verschiedenen Zeitpunkten die Fläche 
überqueren. Außerdem kann der Betrachtungswinkel auf verschiedene Wer- 
te für jede Sequenz festgelegt werden. 


In Abbildung 5.1 ist ein Ausschnitt einer Sequenz zu sehen. In dieser Szene 
befinden sich Avatare mit und ohne Rucksack. 


Abbildung 5.2 enthält zwei unterschiedliche Teilversuche: Zum einen Video- 
versuche, in denen Probanden die Aufgabe haben Avatare mit Rucksäcken zu 
finden und zu markieren, zum anderen ein Training, das Beobachter auf die 
Detektion von Avataren mit Rucksäcken vorbereitet. 


Es wird eine Standardprozedur definiert, mit der der Vorgang der Markierung 
ermöglicht wird. Den Probanden wird zwei Minuten lang eine Fläche gezeigt, 
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Abbildung 5.2: Geplanter Verlauf des Versuchs zur Existenzprüfung eines Trainingseffekts. 


über die sich insgesamt 150 Avatare bewegen, davon 15 mit Rucksack. Zu 
jedem Zeitpunkt kann es sein, dass entweder kein Avatar mit Rucksack auf 
dem Platz ist oder einer oder mehrere Avatare mit Rucksack. Die Markierung 
eines Avatars mit Rucksack geschieht über Drücken der Leertaste. Mit dem 
Drücken der Leertaste wird die Detektionsprozedur gestartet und der Zeit- 
punkt ta. gespeichert. Ab diesem Zeitpunkt können die Probanden innerhalb 
von maximal 5 Sekunden mit der Maus eine Markierung auf den Avatar mit 
Rucksack setzen. Innerhalb dieser Zeit muss die Leertaste gehalten werden, 
wodurch auch das Bild des Videos angehalten wird. Durch Loslassen der Leer- 
taste kann die Detektionsprozedur abgebrochen werden und eine Fehldetek- 
tion wird gespeichert. Wird während des Haltens der Leertaste ein Avatar 
markiert, wird zunächst die Dauer der Markierung t — t,., gespeichert. Ein 


135 


5 Analyse des Beobachtertrainings 


nein 


Avatar mit Leertaste Speichere Leertaste 
Rucksack drücken t < 5s 
gefunden? und halten det 


nein 


Screenshot und 
Markierungs- 
position und gesetzt? 
t — tget Speichern. 


Abbildung 5.3: Verlauf einer Detektion eines Avatars mit Rucksack bei einem Video Versuch. 


Screenshot wird mit der Markierung an der angeklickten Position angefertigt 
und die Markierungsposition wird gespeichert. Der Prozess der Markierung 
eines Avatars mit Rucksack ist in Abbildung 5.3 dargestellt. 


Im Training werden den Probanden 176 Bilder in zufälliger Reihenfolge ge- 
zeigt. Das Training ist als sogenannte Ja/Nein-Prozedur definiert. Das bedeu- 
tet, dass die Probanden bei jedem Bild mit Ja oder Nein antworten müssen. Ein 
Ja steht dabei für die Zustimmung zu der Frage, ob ein Avatar mit Rucksack 
im vorliegenden Bild zu finden ist. Für jedes Bild bekommen die Probanden 
eine Zeit von maximal 10 Sekunden, um zu einer Entscheidung zu kommen. 
Läuft die Zeit ab, wird das Bild automatisch mit Nein bewertet. Es sind zwei 
Tasten konfiguriert, mit denen sich eine Antwort geben lässt. Mit der Tas- 
te Strg antworten die Probanden mit Nein und mit der Leertaste mit Ja. Das 
Ja/Nein-Vorgehen für jedes Bild ist in Abbildung 5.4 grafisch dargestellt. 


In beiden Prozeduren werden Daten gespeichert. Für das Training wird für je- 
des Bild die Dauer A¢* bis zur Antwort und ja (Xy.. = 1) oder nein (Xj. = 0) 
gespeichert. Für die Videoversuche werden für jede Markierungsoperation 
der Zeitpunkt des Drückens auf die Leertaste tet und für den Fall einer Mar- 
kierung die Position der Markierung x H die Dauer zwischen dem Druck der 
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Abbildung 5.4: Ja/Nein-Entscheidungsprozedur für jedes Bild während des Trainings. 


Leertaste und dem Setzen der Markierung Aga = t — tge, und ein Screenshot 
gespeichert. Liegt nur t4et vor, so wird automatisch eine Fehldetektion erfasst. 


Mit diesem Versuch wird untersucht, ob ein Trainingseffekt für diese Beob- 
achtungsaufgabe nachgewiesen werden kann. Es werden drei Haupthypothe- 
sen und fünf Nebenhypothesen definiert. Tabelle 5.1 fasst die drei Haupthy- 
pothesen zusammen. Die definierten Haupthypothesen in Tabelle 5.1 werden 
nach den beiden Hauptversuchen bewertet. Die fünf Nebenhypothesen wer- 
den zwischen den Trainingseinheiten ausgewertet. Die Ergebnisse dieser Un- 
tersuchung sind in Abschnitt 5.1.1 beschrieben. 


Die Nebenhypothesen haben den Zweck, den Einfluss des Trainings zu be- 
urteilen. Hierzu wird die Receiver-Operating-Characteristic (ROC) Analyse 
verwendet. Die ROC-Analyse erzeugt zunächst die sogenannte ROC-Kurve. 
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Tabelle 5.1: Drei Haupthypothesen fiir den Nachweis eines Trainingseffekts. 


Hypothese | Beschreibung 


H1 Durch das Training wird die Detektionszeit ver- 
ringert. 
H2 Nach dem Training wird die Anzahl von falschen 


Detektionen verringert. 


H3 Die Anzahl der korrekten Detektionen erhöht 
sich durch die Teilnahme beim Training. 


In der ROC-Kurve wird die Falsch-Positiv-Rate gegen die Sensitivität aufge- 
tragen. Um die Kurve zu erzeugen, muss ein Parameter variiert werden, sodass 
die Sensitivität und Falsch-Positiv-Rate sich verändern, solange bis beide bei 
100% angelangt sind. Die Kurve kann dazu verwendet werden, um einen op- 
timalen Parameter für das Klassifikationsproblem zu ermitteln. In diesem Fall 
wird die ROC-Kurve dazu verwendet, um die Hypothesen auszuwerten. In den 
fünf Hypothesen werden Sensitivität, Spezifität, der Positiv-Prädiktive-Wert 
(PPV), der Negativ-Prädiktive-Wert (NPV) und der Sensitivitätsindex (d’) aus- 
gewertet. Die Sensitivität wird als Verhältnis der korrekten Zuordnungen zu 
der Gesamtanzahl der Rucksackbilder durch 


TP 


TPR = = 
TP + FN 


(5.1) 
berechnet, wobei TP die korrekten Zuordnungen, FN die nicht zugeordne- 
ten Rucksackbilder und TPR die Sensitivitat bezeichnet. Zur Berechnung der 
Spezifizität müssen die korrekt und falsch zugeordneten Bilder ohne Rucksack 
gezählt werden. Die Spezifizität FPR ergibt sich durch 


TN 
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wobei TN die korrekt zugeordneten Bilder ohne Rucksack, und FP die falsch 
zugeordneten Bilder ohne Rucksack bezeichnet. Unter weiterer Verwendung 
von TP, FN, TN und TP können PPV und NPV durch 


TP 

PPV = pur en 
TN 

NPV = INH (5.4) 


berechnet werden. Der Sensitivitätsindex d’ kann berechnet werden, wenn 
das Signal-zu-Rausch-Verhältnis für das Problem bekannt ist. Das ist in die- 
sem Fall unbekannt. Durch Verwendung der ROC-Statistik kann der Wert ap- 
proximiert werden. Dann kann durch 


d’ = V2- Z (AUC) (5.5) 


der Sensitivitatsindex d’ berechnet werden, wobei AUC der Area-Under- 
Curve-Wert der ROC-Kurve und Z(-) die Inverse der kumlativen Vertei- 
lungsfunktion der Normalverteilung sind. Mit diesen Größen werden die fünf 
Nebenhypothesen in Tabelle 5.2 definiert. 


Im folgenden Abschnitt wird der Versuch zur Untersuchung von unterstüt- 
zenden Trackingverfahren beschrieben. 


5.1.1 Ergebnisse der Existenzprüfung eines 
Trainingseffekts 


Der Versuch zum Trainingseffekt für menschliche Beobachter wurde am 
Fraunhofer Institut für Optronik, Systemtechnik und Bildauswertung (IOSB) 
in Ettlingen durchgeführt. Die Teilnehmer dieses Experiments waren Mitar- 
beiter dieses Forschungsinstituts. Insgesamt haben 22 Probanden teilgenom- 
men. Die Alters- und Geschlechtsverteilung ist in Tabelle 5.3 angegeben. 
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Tabelle 5.2: Fünf Nebenhypothesen zur Bewertung der Trainingsveränderungen zwischen jeder 
Trainingseinheit. 


Hypothese | Beschreibung 


SH1 Die Sensitivität (TPR) der Detektionsaufgabe ver- 
bessert sich. 

SH2 Die Spezifitat (FPR) der Detektionsaufgabe ver- 
bessert sich. 

SH3 Der Positiv-Prädiktive-Wert (PPV) verbessert 
sich durch das Training. 

SH4 Der Negativ-Pradiktive-Wert (NPV) verbessert 
sich durch das Training. 

SH5 Die Detektionsleistung, ermittelt durch den Sen- 
sitivitatsindex (d’), verbessert sich durch das 
Training. 


Tabelle 5.3: Population des Versuchs zur Prüfung der Existenz eines Trainingseffekts fiir Beob- 


achtungsaufgaben. 
Altersbereich | weiblich | männlich 
< 30 3 1 
[30, 40) 7 0 
[40, 50) 3 3 
[50, 60) 2 2 
>= 60 1 0 
Summe 16 6 


Alle Probanden führten das Experiment in einer festgelegten Reihenfolge 
durch (siehe Abbildung 5.2). Für alle Probanden musste zunächst der Ist- 
Zustand ermittelt werden. Alle Probanden bekamen ein Video zu sehen, in 
dem sie die Aufgabe hatten rucksacktragende Avatare aufzuspüren und zu 
markieren. Die durchschnittliche Zeit von der Detektion bis zur Markierung 
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Tabelle 5.4: Ergebnisse des Basis-Versuchs zur Ermittlung des Ist-Zustandes um einen Basiswert 
für die Ermittlung der Existenz eines Trainingseffekts zu erlangen. Die Messwerte 
werden zusätzlich mit Standardabweichung angegeben. 


Messwert > min Xvid max 

Korrekte 12.09 + 2.07 266 8 12.50 15 
Detektionen 

Mittlere De- | 10.22 s + 3.76s | 224.82s | 3.61s | 10.27s | 18.49s 
tektionszeit 

Sensitivitat 0.81 + 0.14 17.73 0.53 0.83 1 
Spezifitat 1+0 22 1 1 1 
PPV 1+0 22 1 1 1 
NPV 0.98 + 0.02 21.54 0.95 0.98 1 


wurde gemessen. Zusätzlich wurde erfasst, wie viele der Avatare mit Ruck- 
sack gefunden und korrekt markiert wurden und wie viele Fehldetektionen 
es gab. Daraus werden die definierten Kennwerte abgeleitet. Tabelle 5.4 fasst 
die Ergebnisse des Basisversuchs zusammen. 


Tabelle 5.4 zeigt, dass im Schnitt 12.09 + 2.07 Avatare von insgesamt 15 Ava- 
taren mit Rucksack gefunden wurden. Es gab Probanden, die alle Avatare fin- 
den konnten. Die mittlere Detektionszeit beläuft sich auf 10.22 + 3.76 Sekun- 
den. Die Probanden weisen eine hohe, mittlere Sensitivität auf. Die Spezifität 
und der PPV erzielen im Mittel ein perfektes Ergebnis. Der NPV erzielt ein 
sehr gutes Ergebnis mit 0.98 + 0.02. Mit dieser Ausgangsbasis ist eine grund- 
sätzliche Verbesserung nur noch in der Anzahl der korrekten Detektionen 
und der mittleren Detektionszeit zu erwarten. 


Um eine Verbesserung zu erlangen, sollten die Probanden einen Trainingspro- 
zess durchlaufen. Mit einem Tag Abstand wurden die Probanden mit Einzel- 
bildern trainiert. Bei jedem Bild mussten die Probanden sich möglichst schnell 
entscheiden, ob ein Avatar mit Rucksack im Bild war. Dazu mussten die Pro- 
banden bei der Entscheidung Nein die linke Strg-Taste drücken, oder die Leer- 
taste bei Ja. Basierend auf den Antworten werden zur Ermittlung der Detek- 
tionsleistung verschiedene Werte gemessen: die Sensitivität, Spezifität, PPV, 
NPV und d’. Die Werte wurden für jeden Probanden ermittelt und es wurden 
Mittelwert mit Standardabweichung, die Summe der Messwerte, Minimal- 
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Tabelle 5.5: Ergebnisse der drei Trainingseinheiten zur Verbesserung der Detektionsleistung. Al- 
le Messwerte werden mit Standardabweichung angegeben. 
Messwert >: min | Ximeq | max 


Sensitivität (T1) | 0.82+0.12 | 18.25 | 0.58 | 0.87 | 0.96 
Spezifität (T1) 0.49 + 0.19 | 10.83 | 0.17 | 0.50 | 0.94 


PPV (T1) 0.94 + 0.02 | 20.61 | 0.91 | 0.94 | 0.99 
NPV (T1) 0.29+0.10 | 6.28 | 0.15 | 0.30 | 0.46 
d’ (T1) 1.04 + 0.37 | 22.92 | 0.36 | 1.05 | 1.80 


Sensitivität (T2) | 0.87 +0.11 | 19.11 | 0.62 | 0.92 | 1.00 
Spezifitat (T2) 0.42 + 0.23 | 9.28 | 0.00 | 0.42 | 0.83 


PPV (T2) 0.93 +0.02 | 20.50 | 0.90 | 0.93 | 0.97 
NPV (T2) 0.32+0.18 | 7.07 | 0 | 0.29 | 1.00 
d’ (T2) 1.06 + 0.21 | 21.28 | 0.67 | 1.08 | 1.41 


Sensitivität (T3) | 0.89+0.10 | 19.60 | 0.68 | 0.93 | 0.99 
Spezifitat (T3) 0.34 +0.19 | 7.39 | 0.06 | 0.28 | 0.72 


PPV (T3) 0.92 + 0.02 | 20.31 | 0.90 | 0.92 | 0.97 
NPV (T3) 0.3140.12 | 6.87 | 0.15 | 0.32 | 0.63 
d’ (T3) 0.90 + 0.31 | 19.82 | 0.26 | 0.93 | 1.50 


und Maximalwert, sowie der Median der gemessenen Werte berechnet. Die 
Ergebnisse der Trainingseinheiten sind in Tabelle 5.5 aufgeführt. 


Betrachtet man Tabelle 5.5 genauer, konnte ausschließlich die Sensitivi- 
tät über die Trainingseinheiten gesteigert werden. Die Spezifität und PPV 
nehmen kontinuierlich zwischen jeder Trainingseinheit ab. Die Werte NPV 
und d’ verbessern sich zwischen den Trainingseinheiten T1 und T2 und 
verschlechtern sich nach dem dritten Training. Der Wert d’ ist beim dritten 
Training minimal. Für eine weitere Auswertung werden für das Training 
fünf Nebenhypothesen bewertet. Unter Betrachtung der Nebenhypothe- 
sen (siehe Tabelle 5.2) zeigt sich, dass die Nebenhypothese SH1 bestätigt 
werden kann, da die Sensitivität sich im Verlauf des Trainings verbessert 
hat. Die Nebenhypothesen SH2 und SH3 müssen verworfen werden, da 
eine kontinuierliche Verschlechterung von Spezifität und PPV besteht. Die 
Nebenhypothesen SH4 und SH5 werden zwischen T1 und T2 bestätigt und 
müssen unter Einbezug von T3 verworfen werden. Somit werden vier der 
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Tabelle 5.6: Ergebnisse des finalen Versuchs zur Ermittlung des Zustands nach Training zur Er- 
mittlung der Existenz eines Trainingseffekts. Alle Messwerte werden mit Standard- 
abweichung angegeben. 


Messwert > min | Xmed max 
Korrekte 10.64 + 1.79 234 7 10 14 
Detektionen 
Mittlere De- | 10.75 s + 5.00s | 236.47s | 2.84s | 9.95s | 31.945 
tektionszeit 
Sensitivitat 0.71 + 0.12 15.6 0.47 0.67 0.93 
Spezifität 1+0 22 1 1 1 
PPV 1+0 22 1 1 1 
NPV 0.97 + 0.01 21.32 0.94 0.96 0.99 


fünf Hypothesen verworfen. Für das Training kann keine Verbesserung der 
Detektionsleistung nachgewiesen werden. 


Zum Beweis eines Trainingseffekts muss noch der finale Videoversuch aus- 
gewertet werden. Für den zweiten Versuch werden analog des ersten Video- 
versuchs die Anzahl der korrekten Detektionen, die mittlere Detektionszeit, 
Sensitivität, Spezifität, PPV und NPV für jeden Probanden im Videoversuch 
ermittelt. Die Messwerte aller Ergebnisse werden statistisch ausgewertet. Die 
ausgewerteten Ergebnisse sind in Tabelle 5.6 dargestellt. 


Um die Haupthypothesen zu bestätigen, müssen die Ergebnisse des Basis- 
versuchs mit den finalen Versuchsergebnissen verglichen werden. Für die 
Haupthypothese H1 werden die mittleren Detektionszeiten miteinander ver- 
glichen. Es zeigt sich eine geringfügige mittlere Zunahme, wobei eine stärkere 
Schwankung gemessen wird. Das Minimum der gemessenen mittleren Zeit 
und der Median verringern sich zwischen beiden Versuchen. Die maximale 
Zeit ist deutlich gestiegen. Es wurde keine signifikante Verbesserung erreicht, 
weswegen Hypothese H1 verworfen werden muss. Hypothese H2 kann für 
diesen Versuch nicht ausgewertet werden, da keine Falschdetektionen ver- 
zeichnet wurden. Hypothese H3 muss verworfen werden, da keine Erhöhung 
der korrekten Detektionen erfasst wurde. 
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Für diese Untersuchung kann weder ein eindeutiger Hinweis für die Existenz 
eines Trainingseffekts nachgewiesen, noch ausgeschlossen werden. Es muss 
die geringe Anzahl von 22 Probanden berücksichtigt werden, die für statis- 
tisch valide Ergebnisse weitaus größer sein muss. Für diesen Versuch konn- 
ten nicht mehr Probanden akquiriert werden. Demnach bleibt die Frage nach 
einer statistisch abgesicherten Antwort auf die Frage nach der Existenz eines 
Trainingseffekts für diese Aufgabe offen. 


5.2 Überprüfung des Effekts von 
unterstützenden Trackingsystemen 


Mit einer steigenden Anzahl an Kamerasystemen an öffentlichen Plätzen er- 
höht sich der Überwachungsaufwand. Beobachter bekommen häufig die Auf- 
gabe, verdächtige Personen in einer Menschenmenge zu erkennen. In unter- 
schiedlichen Bereichen, in denen Menschen beobachtet werden, wird darüber 
nachgedacht, Methoden aus dem maschinellen Lernen zu verwenden, um den 
Beobachtern die Aufgabe zu erleichtern. Zu diesen Verfahren gehören Zielde- 
tektionssysteme in Kombination mit speziellen Trackingalgorithmen. Solche 
Algorithmen erzeugen durch ihr Zielerkennungssystem hypothetische Ziele. 
Diese werden durch einen Rahmen markiert und Beobachter können gezielt 
diese Objekte absuchen, um gesuchte Zielobjekte zu finden. Dafür darf die 
Anzahl der dargestellten Rahmen nicht zu groß werden. Sonst muss ein Be- 
obachter zu viele Objekte betrachten und verliert den Überblick. Bei einer 
zu geringen Anzahl an Rahmen würde der Fokus von nicht erkannten Zie- 
len ablenken. In beiden Fällen würden möglicherweise zu wenige Zielobjekte 
gefunden. In der Praxis hängt die optimale Anzahl an Rahmen stark von der 
Aufgabe und dem aktuellen Geschehen ab. 


In diesem Abschnitt wird untersucht, ob ein automatisches Zielerfassungs- 
system einen positiven Einfluss auf die Detektionsleistung von Probanden 
ausübt. Es werden Crowd-Simulationsvideos verwendet analog zu Abschnitt 
5.1. In diesem Versuch wurden die Videos mit der Software Maya Autodesk 
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Tabelle 5.7: Überblick über die verwendeten Sequenzen für die Untersuchung des Einflusses von 
Markierungen auf die Detektionsleistung von Probanden. Im Fall von 20 Markie- 
rungen bei 150 Avataren bedeutet der Eintrag, dass sechs der 15 Avatare markiert 
wurden und ein Blickwinkel von 72° verwendet wurde. 


Markierungen | 100 Avatare | 150 Avatare | 200 Avatare 


0 0/10 (0°) 0/15(288°) | 0/20(144°) 
5 1/10(72°) | 2/15(144) | 2/20(216°) 
10 2/10 (144°) 3/15 (0°) 4/20 (288°) 
20 4/10(216°) | 6/15(72°) 8/20 (0°) 
40 8/10 (288°) | 12/15(216°) | 16/20(72°) 


2015 und Golem Crowd 2015 erstellt. Die Markierungen wurden mit Ado- 
be After Effects CC 2015 manuell gesetzt. Eine automatische Trackingsoft- 
ware sorgte fiir die Verfolgung der markierten Avatare. Es wurden insge- 
samt 15 Videos verwendet. Bei diesen Videos wurden der Blickwinkel auf 
den simulierten Platz, die Zahl der Avatare und die Zahl der angezeigten 
Markierungen variiert. Es wurden fünf verschiedene Blickwinkel gewählt: 
{0°, 72°, 144°, 216°, 288°}. In den Videos können drei unterschiedlich große 
Anzahlen von Avataren enthalten sein: {100, 150, 200}. Die Anzahl der an- 
gezeigten Rahmen konnte zwischen keinem und 40 Markierungen variieren. 
Die tatsächliche Zusammensetzung der Parameter in den 15 Videosequenzen 
ist in Tabelle 5.7 dargestellt. In Abbildung 5.5 ist ein Einzelbild mit 200 Ava- 
taren und 40 Markierungen dargestellt. 


Um den Einfluss der Markierungen auf die Arbeitslast der Probanden zu er- 
mitteln, wird eine zweite Aufgabe für die Probanden in den Versuch integriert. 
In zufälligen Intervallen wurden den Probanden akustische Signale vorge- 
spielt, während sie die Videoversuche durchführten. Die Probanden mussten 
auf dieses akustische Signal reagieren, indem sie das akustische Signal durch 
einen Tastendruck quittierten. Ausgehend von der Signalquittierung wurde 
die Reaktionszeit auf den Stimulus gespeichert. Für den Videoversuch wurden 
Detektionszeiten und -raten der gesuchten Avatare gespeichert. Das Ziel des 
Versuchs war es herauszufinden, ob eine steigende Avataranzahl, sowie eine 
steigende Markierungsanzahl einen stärkeren, negativen Effekt auf die Detek- 
tionsleistung der Probanden ausübt. Dazu werden bezüglich der steigenden 
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Abbildung 5.5: Beispielszene aus einer Sequenz mit 200 Avataren und 40 Markierungen. 


Avataranzahl und der steigenden Markierungsanzahl unterschiedliche Hypo- 
thesen generiert. Die erzeugten Hypothesen beziehen die Detektionszeiten, 
Detektionsraten, Stimulus-Reaktionszeiten und Stimulus-Trefferraten ein. Ta- 
belle 5.8 fasst die Hypothesen fiir den Versuch zusammen. 


5.2.1 Ergebnisse der Einflussprüfung durch 
Bildanalysesoftware 


Der Versuch zur Bewertung des Einflusses von Bildanalysesoftware zur Unter- 
stützung von Beobachtern wurde am Fraunhofer Institut fiir Optronik, Sys- 
temtechnik und Bildauswertung (IOSB) in Ettlingen, Deutschland durchge- 
führt. Für den Versuch konnten 26 Freiwillige akquiriert werden, 7 weibliche 
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Tabelle 5.8: Getestete Hypothesen für die Studie zur Evaluierung des Einflusses der Bildanaly- 
sealgorithmenqualität auf die Detektionsleistung von Probanden. 


Hypothese | Erklärung 


H1 Die Detektionszeit (DT7g) erhöht sich mit stei- 
gender Avataranzahl. 

H2 Die Detektionsrate (DR-c) verringert sich mit 
steigender Avataranzahl. 

H3 Die Stimulus-Reaktionszeit (RT sy) steigt mit stei- 
gender Avataranzahl. 

H4 Die Stimulus-Trefferrate (HRsr) sinkt mit stei- 
gender Avataranzahl. 

H5 Die Detektionszeit (DT7,) steigt mit steigender 
Markierungsanzahl. 

H6 Die Detektionsrate (DRrc) sinkt mit steigender 
Markierungsanzahl. 

H7 Die Stimulus-Reaktionszeit (RTs-r) steigt mit stei- 
gender Markierungsanzahl. 

H8 Die Stimulus-Trefferrate (HRsr) sinkt mit stei- 


gender Markierungsanzahl. 


Beobachter und 19 männliche Beobachter. Die Versuche wurden an zwei auf- 
einanderfolgenden Tagen durchgeführt. Die Sequenzen wurden in drei unter- 
schiedlichen Permutationen aneinandergereiht, sodass immer zwei nebenein- 
andersitzende Probanden unterschiedliche Reihenfolgen der Sequenzen sa- 
hen. Während der Betrachtung der Videos mussten die Probanden auf zufällig 
auftretende akustische Signale durch das Drücken einer Taste reagieren. 


Zur Evaluation der Ergebnisse wurden Methoden der deskriptiven Statistik 
und der Inferenzstatistik eingesetzt. Die Daten können nicht als statistisch un- 
abhängig angenommen werden. Zusätzlich wurden die Verteilungen der ge- 
messenen Detektionszeiten und der Reaktionszeiten auf den akustischen Sti- 
mulus untersucht. Diese Werte waren nicht normalverteilt. Aufgrund dieser 
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Tabelle 5.9: Ergebnisse der Detektionszeiten und -raten, sowie der Reaktionszeiten und Tref- 
ferraten fiir die akustischen Stimuli bei einer steigenden Anzahl von Avataren. Die 
Vergleichswerte sind als Median der gemessenen Verteilungen gegeben. 


Anzahl der Avatare 
A100 A150 A200 p-Wert 


DTr¢(s) | 521 663 7.13 | 0.06* 


DRrg 0.54 0.43 0.40 | < 0.000* 
RTsr (ms) | 544 563 576 | 0.482 
HRsr 0.97 0.96 0.97 0.74 


Beobachtungen wurde auf nichtparametrische, statistische Tests zurückge- 
griffen. In den Versuchen werden wiederholte Messungen miteinander vergli- 
chen. Der Friedman-Test wurde mit einem Signifikanzniveau p < 0.1 verwen- 
det. Mit der Software PSPP 0.10.4 wurden die statistischen Analysen ausge- 
führt. Die Analyse wurde bezüglich der steigenden Avataranzahl untersucht. 
Die Ergebnisse dieser Untersuchung sind in Tabelle 5.9 zusammengefasst. 


Die Untersuchung der Detektionszeit DTyg in Tabelle 5.9 zeigt eine Zunahme 
bei Vergrößerung der Avataranzahl. Der resultierende p-Wert liegt unter dem 
Signifikanzniveau; daher ist diese Steigerung der Detektionszeit als signifi- 
kant zu bezeichnen. Damit kann die Hypothese H1 bestätigt werden. Ebenso 
verringert sich die Detektionsrate DRyg bei steigender Avataranzahl in signi- 
fikanter Weise, wodurch auch Hypothese H2 bestätigt wird. Wie erwartet, 
steigerte sich auch die Reaktionszeit auf den sekundären Stimulus RTsr. Al- 
lerdings liegt der p-Wert deutlich über dem Signifikanzniveau, wodurch Hy- 
pothese H3 verworfen werden muss. Die erwartete Verringerung der Treffer- 
rate konnte nicht festgestellt werden, was zum Verwerfen von Hypothese H4 
führt. Die verworfenen Hypothesen H3 und H4 deuten darauf hin, dass sich 
durch Erhöhen der Anzahl an Avataren die Arbeitslast der Probanden sich 
zwar objektiv erhöht hat, hieraus allerdings keine Überforderung der Pro- 
banden resultiert ist. 


Ein weiterer Aspekt dieser Untersuchung ist der Effekt von computergesteu- 
erten Markierungsvorschlägen durch ein Computersystem. Die Anzahl der 
vorgeschlagenen Markierungen wurde in den einzelnen Videos variiert. Die 
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Abbildung 5.6: Entwicklung des Wertes DT 7 für verschiedene Markierungsstufen und die ver- 
schiedenen Avataranzahlen, sowie den mittleren Verlauf über allen Avataran- 
zahlen. 


Anzahlen wurden in fünf unterschiedliche Stufen unterteilt: In keine Markie- 
rung MO, fünf Markierugen M5, zehn Markierungen M10, zwanzig Markie- 
rungen M20 und vierzig Markierungen M40. Unter Berücksichtigung der Mar- 
kierungsanzahl werden die Hypothesen H5 bis H8 untersucht mit dem Ziel 
die Veränderung der Detektionsleistung unter den unterschiedlichen Markie- 
rungsanzahlen, sowie die Beeinflussung der Arbeitslast durch die Anzahl der 
Markierungen zu untersuchen. Die Ergebnisse sind in Tabelle 5.10 aufgetra- 
gen. Die Tabelle ist in vier Abschnitte unterteilt. Es gibt je einen Abschnitt für 
die Detektionszeit DT 7¢, die Detektionsrate DRyg, die Reaktionszeit auf den 
Stimulus RTsr und die Trefferrate auf die Stimuli HRsr. 


Die Ergebnisse sind einzeln für jede Avataranzahl aufgeführt und werden zu 
einem Durchschnittswert für die Markierungsanzahlen zusammengefasst. Die 
Detektionszeit zeigt keine eindeutige Steigerung in Abhängigkeit der steigen- 
den Markierungsanzahl. Vielmehr ist ein u-förmiger Zusammenhang zu be- 
obachten. Dieser Zusammenhang ist in Abbildung 5.6 dargestellt. 
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Tabelle 5.10: Ergebnisse der Auswertung der Hypothesen H5 bis H8 bezogen auf eine steigende 
Anzahl an Markierungen in den Videos. Alle Werte sind als Median der gemesse- 
nen Werte gegeben. 


Anzahl Avatare 
A100 A150 A200 | Mittelwert 

(s) Mo | 610 626 7.24 6.61 
M5 5.48 5.74 8.00 6.35 
DT M10 4.39 5.83 5.71 5.29 
TG M20 6.96 6.74 7.12 7.03 
M40 4.87 7.21 5.37 5.99 
p-Wert | 0.03* 0.15 0.37 0.61 
MO 0.60 0.47 0.40 0.47 
M5 0.60 0.40 0.35 0.45 
DR M10 0.50 0.40 0.40 0.40 
TG M20 0.50 0.40 0.40 0.45 
M40 0.60 0.50 0.50 0.50 

p-Wert | 0.03* 0.21 0.002” < 0.000* 
(ms) MO | 543 575 537 544 
M5 531 536 562 543 
RT M10 521 556 526 526 
ST M20 581 556 550 558 
M40 515 578 589 564 
p-Wert | 0.25 0.59 0.84 0.35 
MO 1.00 1.00 1.00 1.00 
M5 1.00 0.94 1.00 1.00 
M10 1.00 1.00 1.00 1.00 
HRsr M20 | 1.00 1.00 1.00 1.00 
M40 1.00 1.00 1.00 1.00 
p-Wert | 0.54 0.55 0.75 0.89 


Die u-Form in Abbildung 5.6 zeigt ein Minimum der Detektionszeit für eine 
Markierungsanzahl von 10 Markierungen im Bild. Dies ergibt eine Widerle- 
gung der Hypothese H5. Dieses Minimum ist unabhängig von der Anzahl der 
Avatare und erscheint stabil. Allerdings ist die Anzahl der Probanden sehr 
gering, sodass hier nur von einer Tendenz gesprochen werden kann. 
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5.3 Zusammenfassung 


Die Detektionsrate in Abhängigkeit der Markierungsanzahl DRyg zeigt eine 
leichte u-Form fiir jede Avataranzahl. Die Unterschiede werden insgesamt als 
signifikant angezeigt. Es zeigt sich ein Abfall der Detektionsrate mit steigen- 
der Avataranzahl. Die Hypothese H6 ist aufgrund der u-Form zu verwerfen. 
Die Reaktionszeit RTs; zeigt einen u-förmigen Verlauf über der Markierungs- 
anzahl. Dieser Verlauf ist unabhängig von der Avataranzahl. Somit kann H7 
verworfen werden, da sich keine kontinuierliche Steigerung der Reaktionszeit 
auf den externen Stimulus zeigt. Hier zeigt sich ein Optimum bezüglich der 
Markierungsanzahl. Das Optimum stellt sich zwischen 10 und 20 Markierun- 
gen ein. Die letzte Hypothese kann verworfen werden, da die Detektionsrate 
der Stimuli konstant bei 1 verbleibt. Ein Ausreißer wurde aufgezeichnet, bei 
dem nur 94 Prozent der Stimuli quittiert wurden. Das ermittelte Optimum bei 
10 bis 20 Markierungen deckt sich mit einer Studie von Huber et al. [Hub15]. 


Nur zwei der aufgestellten Hypothesen konnten bestätigt werden H1 und 
H2. Alle weiteren Hypothesen mussten verworfen werden. Es zeigte sich bei 
der Untersuchung der Hypothesen H5 bis H8 eine nützliche Erkenntnis. Die 
Anzahl der Markierungen zeigte einen Einfluss auf das Detektionsvermögen 
der Probanden. Eine Anzahl von 10 bis 20 Markierungen hatte einen positi- 
ven Einfluss auf die Detektionszeiten und Detektionsraten für die Zielobjekte 
und auch die Reaktionszeit des sekundären Stimulus. Der sekundäre Stimulus 
wurde gemessen, um den Arbeitsaufwand der Probanden nachzuverfolgen. 
Somit konnte eine Tendenz nachgewiesen werden, die ein Minimum bei ei- 
ner Arbeitslast von 10 bis 20 Markierungen bedeutet. Die Untersuchung der 
algorithmischen Unterstützung bei Beobachtungsaufgaben zeigt einen posi- 
tiven Einfluss auf die Detektionsleistung bei moderater Unterstützung durch 
Markierungen. Menschliche Beobachter können gezielt durch Algorithmen 
unterstützt werden, ohne zu einem Störfaktor zu werden. Es ist darauf zu ach- 
ten, dass die Genauigkeit des Algorithmus hinreichend hoch ist. 


5.3 Zusammenfassung 


In diesem Kapitel erfolgte eine Untersuchung der menschlichen Leistungs- 
fähigkeit bei Beobachtungsaufgaben. Im ersten Versuch wurde ein möglicher 
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Trainingseffekt durch das vorherige Zeigen von Einzelbildern untersucht. Mit 
den Einzelbildern wurde wiederholt ein Ja-Nein-Experiment durchgefihrt, 
um herauszufinden, ob die Probanden eine verbesserte Detektionsleistung 
über die drei Trainingseinheiten entwickeln. Außerdem wurde ein Vorher- 
Nachher-Experiment durchgeführt, bei dem die Probanden in wiederholten 
Videosequenzen Avatare mit Rucksack entdecken und markieren sollten. In 
diesem Experiment konnte kein eindeutiger Hinweis auf einen Trainingsef- 
fekt nachgewiesen werden. 


In einem zweiten Versuch wurde untersucht, ob der Einsatz von unterstüt- 
zenden Algorithmen einen positiven Einfluss auf die Beobachtungsleistung 
ausübt. Es wurde festgestellt, dass eine Anzahl von 10 bis 20 Markierungen 
hilfreich für Beobachter sein kann. Bei diesen Anzahlen konnte ein positiver 
Effekt auf die gemessenen Kennzahlen verzeichnet werden. 


In beiden Versuchen konnte nur auf eine geringe Anzahl an Probanden zu- 
rückgegriffen werden, sodass möglicherweise dennoch ein Trainingseffekt 
vorhanden sein könnte. Daher ist eine erneute Überprüfung der Ergebnisse 
mit ausgebildeten Videobeobachtern ratsam. 


Der im zweiten Versuch festgestellte positive Effekt bei 10 bis 20 Markierun- 
gen auf die Detektionsleistung kann aufgrund der geringen Beobachterzahl 
nur als Tendenz bewertet werden. Dieser Effekt ist erklärbar, da der Abfall 
der Kennzahlen bei einer größeren Anzahl von Markierungen auf eine Über- 
reizung hindeutet. Durch eine gezielte Untersuchung mit einer feineren Ab- 
stufung der Markierungsanzahl könnte hier ein Nachweis gelingen. 
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6 Erkennung von emotionalen 
Gesichtsausdrücken 


Diverse Emotionen können einen signifikanten Einfluss auf die menschliche 
Leistungsfähigkeit oder Motivation ausüben. In der Kommunikation, insbe- 
sondere der nonverbalen, spielen Emotionen eine sehr wichtige Rolle. Non- 
verbale Kommunikation findet statt durch Gestik und Körperhaltung sowie 
vor allem durch den Gesichtsausdruck des Gegenübers. Denn dieser liefert 
eine sichtbare Darstellung des aktuellen emotionalen Zustands und bietet so- 
mit dem Kommunikationspartner eine erweiterte Interpretationsmöglichkeit. 
Dem Menschen fällt es leicht, einem Gesichtsausdruck die korrekte emotio- 
nale Bedeutung zuzuordnen. Es gibt eine Vielzahl unterschiedlicher Gesichts- 
ausdrücke, die sich in spezifische Klassen einteilen lassen. In der Erkennung 
von emotionalen Gesichtsausdrücken werden die sechs bekannten Basisemo- 
tionen nach Ekman [Ekm99] verwendet: Wut (A), Ekel (D), Furcht (F), Freude 
(H), Traurigkeit (S) und Überraschung (U). Für diese sechs Emotionsklassen 
lassen sich exakte Entsprechungen in den Gesichtsausdrücken finden. Abbil- 
dung 6.1 zeigt unterschiedliche emotionale Gesichtsausdrücke. 


Für ein automatisches System ist der Einsatz eines Klassifikators eine gute 
Wahl. Die sechs unterschiedlichen Klassen für die Emotionen können als dis- 
krete Klassen aufgefasst werden. 


Zur Emotionserkennung muss zunächst eine auf Merkmalen basierte Be- 
schreibung der Gesichtsausdrücke gefunden werden. Diese Beschreibung 
muss eine hinreichende Unterscheidung der Gesichtsausdrücke nach den 
sechs Klassen zulassen. Das ist die Grundvoraussetzung für die Nutzung 
eines Algorithmus zur automatischen Klassifikation der Gesichtsausdrücke. 
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(a) Wut (b) Ekel (c) Furcht (d) Freude (e) Traurigkeit 


(£) Überrasch- 
ung 


Abbildung 6.1: Sechs Beispielbilder mit Gesichtsausdrücken zu den sechs Basisemotionen aus 
der CK Datenbank. Die Gesichter gehören zu den Probanden S052-A (a), S055-D 
(b), S074-F (c), S124-H (d), S125-S (e) und S132-U (f) ©Jeffrey Cohn. 


Die hohe Varianz an Gesichtern stellt eine Herausforderung für die Unter- 
scheidung der Gesichtsausdrücke dar. Zur Veranschaulichung der Varianz 
emotionaler Gesichtsausdrücke zeigt Abbildung 6.2 acht unterschiedliche 
Gesichter mit Gesichtsausdrücken der Emotion Freude (H) aus dem Cohn- 
Kanade+ Datensatz (CK) von Lucey et al. [Luc10a]. 


Abbildung 6.2: Acht Beispielbilder mit Gesichtsausdrücken der Emotion H aus der CK Daten- 
bank. Die Gesichter gehören zu den Probanden S052 (a), S055 (b), S074 (c), S106 
(d), S124 (e), S125 (f), S130 (g) und S132 (h) ©Jeffrey Cohn. 


Die Bilder zeigen eine hohe Variabilität zwischen den Gesichtern, die sich 
auch in den zugehörigen Landmarken widerspiegelt. Verwendet man die 
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Techniken aus Kapitel 4: die Extraktion der Landmarken und die Procrustes 
Analyse, so können die resultierenden Landmarken übereinander gelegt 
werden. Abbildung 6.3 zeigt überlagerte Landmarken der acht Gesichter 
aus Abbildung 6.2. 
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Abbildung 6.3: Mittels Procrustes Analyse übereinandergelegte Landmarken von acht Beispiel- 
bilder aus der CK Datenbank mit Gesichtsausdruck der Emotion Freude (H). 


Abbildung 6.4 fasst die Problemstellung der Klassifikation eines emotionalen 
Gesichtsausdrucks graphisch zusammen. 


In den folgenden Abschnitten werden Merkmale abgeleitet, die zur Klassifi- 
kation der Gesichtsausdrücke verwendet werden. 


Klassifikation Klasse 
Gesichtsbild leit 


extraktion 


Abbildung 6.4: Prozesskette fiir die Verarbeitung von Gesichtsbildern in einem Klassifikations- 
prozess, um die emotionale Klasse dem Bild zuzuordnen. 
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6.1 Klassifikation von Gesichtsausdrücken 


Die Verwendung von Grauwertmustern wie in LBP oder LQP enthält we- 
nig strukturelle Information tiber das Gesicht und die zugrundeliegenden Ge- 
sichtsausdrücke. In dieser Arbeit werden Merkmale entwickelt, die die inha- 
rente Struktur des Gesichtsausdrucks verwenden. Mit der inhärenten Struktur 
des Gesichtsausdrucks ist grob die Form des Gesichtsausdrucks gemeint. Eine 
gute Repräsentation dieser Struktur ist durch sogenannte Gesichtslandmar- 
ken gegeben. Gesichtslandmarken bieten eine Repräsentation des Gesichts- 
ausdrucks durch eine feste Anzahl an Punkten. Zu diesem Zweck existie- 
ren verschiedene Landmarkenmodelle. In dieser Arbeit wird das Landmar- 
kenmodell verwendet, dass auch in der Landmarken-Anpassung von Qu et 
al. [Ou15a] Verwendung findet. Das Landmarkenmodell umfasst insgesamt 
68 einzelne Punkte, wobei zwischen Eckmerkmalen und interpolierten Zwi- 
schenpunkten zu unterscheiden ist. In Cootes et al. [Coo00] ist dieser Um- 
stand näher beschrieben. Eckmerkmale sind echte Landmarken, die durch prä- 
gnante Strukturen des Gesichts gegeben sind, wie zum Beispiel der Mundwin- 
kel oder die Augenwinkel. Zwischenpunkte werden entlang einer Trajektorie 
zwischen den echten Landmarken interpoliert. In Abschnitt 3.1 wurde das 
Landmarkenmodell bereits eingeführt. 


Ausgehend von diesem Landmarkenmodell werden Merkmale zur Beschrei- 
bung des emotionalen Gesichtsausdrucks extrahiert. Die Merkmale beinhal- 
ten Informationen über Winkel, sowie über Größen. Die Winkelinformatio- 
nen werden mittels Schnitt von Geraden ermittelt, die auf Basis der Landmar- 
ken konstruiert werden. Die Größeninformation wird mittels Ellipsen appro- 
ximiert, die anhand von einer Menge von Landmarken interpoliert werden. 
Dieser Merkmalssatz wird als Angle- and Size Feature Set (ASF) [Dun18a] be- 
zeichnet. Die Ableitung der Winkelinformationen, sowie die Entscheidung für 
spezielle Winkel wird im folgenden Abschnitt beschrieben. Weiter werden die 
Größeninformationen mit dem Verhältnis der Ellipsenhalbachsen bestimmt. 
Die Herleitung dieser Größeninformationen wird im übernächsten Abschnitt 
betrachtet. 
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6.1.1 Extraktion von Winkelinformationen 


Es werden Geraden aus Punktpaaren des Landmarkenmodells gebildet. Diese 
Geraden schneiden sich und bilden Winkelinformationen in den Schnittpunk- 
ten. Eine Auswahl an Geraden und Schnitten zwischen den Geraden muss 
getroffen werden, die eine hinreichend große Varianz zwischen den verschie- 
denen zu beschreibenden Gesichtsausdrücken besitzen. Zur Unterscheidung 
dieser sieben Ausdrücke werden zunächst sieben Abbildungen der Landmar- 
ken eines Subjekts aus der CK Datenbank in Abbildung 6.5 dargestellt. Die 
Landmarken sind mittels Procrustes Analyse translatiert, skaliert und rotiert 
worden. 
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(d) (e) (f) 


(g) 


Abbildung 6.5: Landmarken für die sieben emotionalen Klassen (a) Neutral, (b) Ärger, (c) Ekel, 
(d) Furcht, (e) Freude, (f) Trauer und (g) Überraschung. 
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Beim Vergleich der Landmarken zwischen den einzelnen Emotionsklassen 
sind Unterschiede erkennbar. Ein direkter Vergleich der Landmarken ist mög- 
lich und wurde in der Literatur bereits durchgeführt. In dieser Arbeit wird 
der Ansatz verfolgt, die Unterschiede der Landmarken weiter hervorzuheben. 
Hierzu werden Merkmale entwickelt, die eine weitergehende Unterscheidung 
und eine gute Grundlage für die Diskriminierung der Klassen in einem Klas- 
sifikator bilden. Um weitere Merkmale zu extrahieren, müssen zusammen- 
hängende Informationen herausgestellt werden. Der emotionale Gesichtsaus- 
druck besitzt verschiedene Merkmalsmoden: die Augen spiegeln einen gewis- 
sen Anteil des Ausdrucks wieder, ebenso spielt der Mund eine große Rolle 
bei einem Ausdruck. Die Nase und der Gesichtsrand sind nur bezüglich ih- 
rer Position gegenüber den anderen beiden Bereichen für die visuelle Erken- 
nung des Ausdrucks wichtig. Aus diesem Grund werden die Augenregionen 
betrachtet. Die Öffnung der Augen unterscheidet sich zwischen den einzel- 
nen Emotionsklassen. Daher werden Winkelinformationen bezogen auf die 
Öffnung der Augen und die Relation zwischen den Augen und Augenbrauen 
als Merkmale verwendet. 


Um Winkelinformationen zu extrahieren werden Punkte paarweise zusam- 
mengefasst und durch Geraden verbunden. Als Beispiel kann der äußere Eck- 
punkt als Ausgangspunkt für zwei Punktpaare gesehen werden. Die Nachbar- 
punkte des oberen und unteren Lids bilden jeweils den zweiten Referenzpunkt 
für eine der beiden Geraden. Der Winkel zwischen diesen beiden Geraden ap- 
proximiert den Öffnungswinkel zwischen den Augenlidern. Die Geraden sind 
so gewählt, dass sie sich schneiden. Der Winkel wird mittels 


= cost 
a = cos (< 8.8, >) (6.1) 
berechnet, wobei < -,- > das Skalarprodukt ist. Die Vektoren g mit i € {0,1} 
stehen für die normierten Richtungsvektoren der sich schneidenden Gera- 
den. Außerdem entsteht der Eindruck, dass die Augenbrauen stärkeren Bewe- 
gungen unterliegen. Daraus ergibt sich, dass Winkel zwischen den Augenlid- 
Geraden und den Augenbrauen als Merkmal geeignet sind. 
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Für die Augenbrauen werden zwei Geraden verwendet, um die Krümmung 
der Augenbrauen durch den Winkel zwischen beiden Geraden erfassen zu 
können. Zur Auswahl der Winkel wurden die Gesichtsausdrücke der CK- 
Datenbank ausgewertet. Dafür wurde die Varianz aller Winkelvarianten aus- 
gewertet. Die stärksten wurden ausgewählt. Insgesamt wurden 26 Winkel 
ausgewählt, um als Merkmale für die Unterscheidung der Emotionsklassen 
verwendet zu werden. Um die Veränderlichkeit der Varianzen zu verdeutli- 
chen, werden die Winkel eines Auges für alle sieben Emotionsklassen darge- 
stellt. Die Winkelmerkmale für alle Klassen sind in Abbildung 6.6 wieder- 
gegeben. 


Die Abbildungen 6.6 (a) - (g) zeigen eine gute Unterscheidbarkeit der Win- 
kel zwischen den einzelnen Klassen und legen somit eine gute Unterscheid- 
barkeit zwischen den Klassen nahe. Der ASF Merkmalsvektor beinhaltet 26 
einzelne Winkel aus dem Schnitt unterschiedlicher Geraden. Bei der Auswahl 
der Winkel wurde Wert darauf gelegt, alle Regionen des Gesichts in Betracht 
zu ziehen. Das heißt, zunächst wurden einzelne Regionen isoliert betrachtet 
und verschiedene Landmarken mittels Geraden und Winkeln in Beziehung 
gesetzt. In einem weiteren Schritt wurden verschiedene Regionen in Bezie- 
hung gesetzt. Es wurden sich schneidende Geraden aus beiden Regionen aus- 
gewählt, um den Winkel zwischen diesen Geraden zu berechnen. 


Die ersten acht Winkel setzen sich aus den Winkeln der beiden Augen und 
Augenbrauen zusammen. In Abbildung 6.7 (a) sind die Winkel des rechten 
Auges abgebildet und in Abbildung 6.7 (b) die Winkel des linken Auges. 


Die Auswahl der Winkel für die Augenregionen ist nicht vollständig sym- 
metrisch. Die Asymmetrie wurde gewählt, um Zusatzinformationen zu ge- 
winnen. Die Winkel zwischen Geraden des Auges und der Augenbraue wur- 
den gewählt, um Zusammenhänge zwischen den Augen und den Augenbrau- 
en zu modellieren. Hiermit wird das Ziel verfolgt, das gesamte Gesicht als 
zusammenhängendes System zu modellieren. Die Mundregion beinhaltet 11 
einzelne Winkel. Dabei wurden bereits Kombinationen zwischen dem Mund 
und weiteren Regionen verwendet. Dazu gehört die Nasenregion, ebenso wie 
die Region des rechten Auges. Die Geraden und extrahierten Winkel für die 
Mundregion sind in Abbildung 6.8 dargestellt. 
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(g) Überraschung 
Abbildung 6.6: Verwendete Geraden und extrahierte Winkel für die Winkelmerkmale des ASF 


Merkmalssatzes für Augen und Augenbrauen. Die Landmarken wurden von 
Subjekt S055 der CK-Datenbank extrahiert. 
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(b) linkes Auge 
Abbildung 6.7: Geraden und die extrahierten Winkel fiir die Augenregion. (a) zeigt die extra- 


hierten Winkel fiir das rechte Auge und (b) die extrahierten Winkel fiir das linke 
Auge. 


Abbildung 6.8 verdeutlicht die modellierten Zusammenhänge zwischen den 
einzelnen Regionen. Diese Zusammenhänge sind den Verbindungen in der 
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Abbildung 6.8: Geraden der Mundregion, sowie zwischen Augen, Nasen und Mundregion. Die 
extrahierten Winkel sind durch Kreisbögen dargestellt. 


mimischen Muskulatur des Gesichts nachempfunden. Damit sind Bewegungs- 
zusammenhänge gemeint, wie zum Beispiel ein ausgeprägtes Grinsen einen 
Einfluss auf die Wangen und somit auf die Öffnung der Augen ausübt. Die 
Schnittwinkel zwischen den Geraden des Auges und des Mundes beschrei- 
ben diese Zusammenhänge. Zusätzlich gibt es Winkel, die durch Punkte des 
Munds und der Nase bestimmt werden. Hier werden Zusammenhänge bereits 
durch die Geraden beschrieben, die implizit in den Winkelmerkmalen ent- 
halten sind. Mit den Winkelmerkmalen des ASF Merkmalsvektors wird ein 
zusammenhängendes Modell definiert. Um letztlich weitere Zusammenhänge 
zwischen allen Gesichtsbereichen zu modellieren gibt es sieben weitere kom- 
binierte Winkel, die ausschließlich durch den Schnitt regionenübergreifender 
Geraden extrahiert werden. Diese kombinierten Winkel sind in Abbildung 
6.9 wiedergegeben. 


Mit den kombinierten Winkeln aus Abbildung 6.9 sind alle 26 verwendeten 
Winkel des ASF Merkmalsvektors beschrieben. Die Winkel unterliegen Ver- 
änderungen, wenn sich die Konfiguration des Landmarkenmodells verändert. 
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Abbildung 6.9: Regionen überspannende Geraden zur Modellierung des Zusammenspiels der 
Gesichtsregionen bei der Darstellung von emotionalen Gesichtsausdrücken. 


Die Winkel beschreiben eine Musterausprägung für den jeweiligen Gesichts- 
ausdruck. 


Um durch die Winkelmerkmale einen robusten Merkmalsvektor zu beschrei- 
ben, sollten die verwendeten Merkmale invariant unter geometrischen Trans- 
formationen sein. Das Landmarkenmodell ist so definiert [Coo00], dass es un- 
ter einer Ähnlichkeitstransformation invariant ist. Unter der Anwendung von 
Translationen, Rotationen und isotroper Skalierung verändert sich die Konfi- 
guration der Landmarken nicht. Da die Berechnung der Geraden von den ge- 
ordneten Landmarken abhängt, sind die extrahierten Winkel unter einer Ähn- 
lichkeitstransformation invariant. Die Beleuchtung der Gesichtsbilder wird 
im Rahmen der Vorverarbeitung normalisiert. Unter der Normalisierung der 
Beleuchtung werden die Merkmale als invariant angenommen, da die Land- 
marken als Grundlage für die Extraktion der Merkmale verwendet werden. 


Unter der Betrachtung der zu den Emotionsklassen gehörenden Bildern wurde 
beobachtet, dass es Größenunterschiede bestimmter Gesichtsregionen unter 
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Abbildung 6.10: Darstellungen der Emotionen (a) Wut und (b) Überraschung von Subjekt $055 
der CK-Datenbank (©Jeffrey Cohn) 


verschiedenen Emotionsklassen gibt. Zum Beispiel verandert sich die Augen- 
größe durch das Aufreißen der Augen, oder die Mundgröße durch Zusam- 
menziehen oder Spreizen der Lippen. Aus diesen Grund wurden zusätzliche 
Größenmerkmale untersucht. 


6.1.2 Extraktion von Größeninformationen 


Es wird angenommen, dass sich die Größe des Munds und der Augen bei ver- 
schiedenen Emotionen unterscheiden. Die Annahme kann durch Vergleich 
der beiden emotionalen Gesichtsausdrücke in Abbildung 6.10 belegt werden. 


Die Emotionsdarstellungen in Abbildung 6.10 verdeutlichen den Eindruck, 
dass Augen und Mund unterschiedlich groß dargestellt werden. Daher wird 
eine Modellierung benötigt, um diese Größe zu beschreiben. Dazu wird eine 
Approximation der Formen für Auge und Mund benötigt, die schnell berech- 
net werden kann und die die Größe zuverlässig wiedergibt. Eine günstige Ap- 
proximation für eine Form die durch Randpunkte gegeben ist, stellt die Ellipse 
dar. Die Ellipse besitzt wegen der beiden Halbachsen zwei Größenkomponen- 
ten. Um eine unter Ähnlichkeitstransformationen invariante Größenbeschrei- 
bung zu erlangen, kann das Verhältnis der beiden Halbachsen verwendet wer- 
den. Dieses Verhältnis invariant unter Translation, Rotation und Skalierung. 
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Dementsprechend bleiben unter Verwendung eines solchen Größenmaßes die 
Invarianzen gültig. 


Es werden drei Ellipsen benötigt, um die drei Größenkomponenten des Ge- 
sichts zu beschreiben. Je eine Ellipse wird unter Verwendung der sechs Au- 
genpunkte für jedes Auge bestimmt. Die äußeren Punkte des Munds bilden 
die Grundlage für die Ellipse zur Größenbeschreibung des Munds. Zur Be- 
rechnung der Ellipsen wird ein Least-Squares Fit verwendet. Grundlage ist 
die Ellipsengleichung 


a:-x’+b-x-y+c-yP +d-x+te-y+f=0, (6.2) 


ein Polynom zweiter Ordnung mit sechs Parametern. Für den Least-Squares 
Fit werden die Parameter so angepasst, dass der quadratische Abstand zu den 
eingesetzten Punkten minimiert wird. Die berechneten Ellipsen für die Augen 
und den Mund sind in Abbildung 6.11 abgebildet. 


Die Ellipsen für die Augen und den Mund lassen erkennen, dass sie die Ur- 
sprungsformen approximieren. Die Abstände zu den Punkten sind sehr ge- 
ring. Maßgeblich für die Extraktion der Größeninformationen sind die Hal- 
bachsen der Ellipse. Die Parameterform der Ellipsengleichung wird durch 


x Xo + a cost cos & — b sint sina . 
| y ) = | Yo + a cost sin æ + b sin t cosa ) mitt € [0, 27) (6.3) 
definiert, wobei [xo yol der Mittelpunkt der Ellipse ist, a und b sind die bei- 
den Halbachsen der Ellipse, æ ist der Rotationswinkel und t ist der Parameter. 
Zur Berechnung der Größeninformation werden nur die beiden Halbachsen 
benötigt. Das Merkmal Größe ergibt sich aus dem Verhältnis der beiden Va- 
riablen. Für die Berechnung wird die kleinere Halbachse ins Verhältnis zur 


165 


a 


Erkennung von emotionalen Gesichtsausdrücken 


e a. d 
-0.10 4 e 5 w a m . 
° _ <> 
—0.05 4 CSE = a 
. . 
e 
e 
„ 0.00} ° sag “ 
e 
e 
0.05 4 o 
iad . 
0.10 4 2 ° 
m e 
e m e e 


T T T T T T T T T 
-0.20 -0.15 -0.10 -0.05 0.00 0.05 0.10 0.15 0.20 
x 


Abbildung 6.11: Berechnete Ellipsen zur Extraktion der Größenmerkmale für den ASF Merk- 
malssatz. 


größeren Halbachse gesetzt, so dass der Wert des Merkmals im Intervall [0, 1] 
liegt. Somit ergibt 


b 
S = = (6.4) 
das Verhältnis, wobei a die große Halbachse und b die kleine Halbachse ist. 
Dieser Zusammenhang wird in Abbildung 6.12 anhand einer Augenellipse 
verdeutlicht. 


Nach diesem Vorgehen werden alle drei Größenmerkmale berechnet. Die Ver- 
wendung des Verhältnisses ermöglicht die Beibehaltung der Invarianzen, wie 
bereits weiter oben argumentiert wurde. 


Zu den 26 Winkeln aus dem vorherigen Abschnitt werden die drei Größen- 
informationen hinzugenommen. Es ergibt sich ein Merkmalsvektor der Grö- 
Be 29 und eine signifikante Reduktion der Dimensionalität im Vergleich zur 
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Abbildung 6.12: Rotierte Ellipse des rechten Auges mit eingezeichneten großer Halbachse a und 
kleiner Halbachse b. 


der direkten Nutzung der Landmarken als Merkmalsvektor, was einer Größe 
von 136 Elementen entspricht. Nachdem der Merkmalsvektor fertiggestellt 
ist, muss entschieden werden mit welchem Klassifikator die besten Ergebnis- 
se erzielt werden können. 


6.1.3 Klassifikatorauswahl 


Der ASF Merkmalssatz beschreibt einen Deskriptor für emotionale Gesichts- 
ausdrücke. Daraus lässt sich ableiten, dass der Deskriptor eine Unterschei- 
dung von statischen Gesichtsausdrücken zulässt. Mit Hilfe der Merkmale wer- 
den emotionale Gesichtsausdrücke einer diskreten Klasse zugeordnet. Die Zu- 
ordnung zu einer diskreten Klasse setzt die Verwendung eines Klassifikati- 
onsalgorithmus voraus. Die Klassifikationsalgorithmen gehören zu den über- 
wachten Lernverfahren. 


Die Auswahl des besten Verfahrens für das Klassifikationsproblem hängt von 
den verwendeten Daten ab. Handelt es sich nur um eine geringe Menge von 
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Daten, deren Dimension gering ist, empfiehlt sich die Verwendung einer linea- 
ren Support-Vektor-Maschine und des Naive Bayes Klassifikators. Ist Erklar- 
barkeit der Klassifikationsentscheidung wichtig, fallt die Wahl auf den Ent- 
scheidungsbaum oder die logistische Regression. Im Fall der ASF Merkmale 
wird ein Klassifikationsverfahren benötigt, dass eine hohe Genauigkeit und 
hohe Geschwindigkeit garantiert. Verwendet werden können Klassifikations- 
modelle wie die Kernel Support-Vektor-Maschinen, Neuronale Netze, Random 
Forests und Gradient Boosting Tree-Verfahren. Betrachtet man vergangene 
Klassifikationswettbewerbe, beispielsweise bei der Online-Community Kagg- 
le, so weisen die Gradient Boosting Tree-Verfahren sehr hohe Genauigkei- 
ten bei sehr hoher Geschwindigkeit auf, die vergleichbare Leistungen liefern 
wie Verfahren, die auf künstlichen Neuronalen Netzen basieren. Aus diesem 
Grund wurde in dieser Arbeit für die ASF Merkmale das XGBoost Klassifi- 
kationsverfahren von Chen und Guestrin [Che16] ausgewählt. Das Verfahren 
ist in Abschnitt 3.3.2 beschrieben. 


Der ASF-Merkmalsatz wird mit einem künstlichen Neuronalen Netz (KNN) 
verglichen. Dazu wird in dieser Arbeit das mit Imagenet-Gewichten initiali- 
sierte VGG-16 Netz verwendet. Die Klasse der KNN wird in Abschnitt 3.3.3 
eingeführt. Um einen gerechten Vergleich der Klassifikatoren und der Erstel- 
lung der Merkmalsvektoren zu erreichen, wird das KNN ohne größere Vor- 
verarbeitungsschritte verwendet. 


6.2 Experimente zur Emotionserkennung 


Der ASF Merkmalssatz wird anhand verschiedener Datenbanken getestet. Da- 
zu gehören die Cohn-Kanade Plus (CK) Datenbank, sowie die Oulu-Casia (OC) 
Datenbank der Finnischen Universität Oulu-Casia. Die CK Datenbank ist ei- 
ne Erweiterung der ursprünglichen Cohn-Kanade Datenbank. Der usprüng- 
liche Zweck dieser Datenbank bestand in der Codierung der Bilder mit dem 
Facial Action Coding System (FACS) von Paul Ekman [Ekm78]. In der vor- 
herigen Variante waren die Emotionslabels zwar gegeben, allerdings waren 
diese nicht Validiert. Mit der Erweiterung erfolgte eine Reevaluierung die- 
ser Labels mit Hilfe des Emotionspräsiktionstabelle aus dem FACS Buch von 
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Ekman et al. [Ekm02]. Mit Hilfe dieser Tabelle können erkannte Kombinatio- 
nen von Facial Actions (FA) auf diskrete Emotionen abgebildet werden. Diese 
Tabelle enthält alle Basisemotionen bis auf Gleichgültigkeit. In dieser Daten- 
bank sind alle Emotionen durch Schauspieler dargestellt, bis auf wenige Se- 
quenzen mit einem Lächeln. Diese Emotionsdarstellungen waren spontan und 
wurden ebenfalls aufgezeichnet. Außerdem enthält die CK Datenbank aus- 
schließlich Frontalbilder. Die Zuordnung der Emotionsklassen wurde durch 
Lucey et al. [Luc10a] mit Hilfe eines Active-Appearance-Models und einer 
Support-Vector-Maschine getestet. 


Die Oulu-Casia Datenbank wurde von der Finnischen Universität Oulu-Casia 
2008 und 2009 erzeugt. Bei der Erzeugung der Datenbank lagen unterschied- 
liche Beleuchtungsszenarien im Vordergrund. Deshalb wurden die Bilddaten 
bei zusätzlicher Beleuchtung, leichter Beleuchtung mit dem Computerdisplay 
und ohne Beleuchtung erfasst. Die Gesichter wurden frontal mit einer visu- 
ellen Kamera und einer NIR-Kamera aufgenommen. Die Emotionen sind alle 
dargestellt, wobei ein Teil an der Universität Oulu-Casia und ein weiterer Teil 
an der Universität von Beijing aufgenommen wurde. Die verwendeten Kame- 
ras besitzen eine Auflösung von 320 x 240 Pixeln. Der Kontrast der Daten ist 
gering verglichen mit den Daten der CK Datenbank. 


Zur Prüfung der Leistungsfähigkeit der von den Landmarken abgeleiteten 
Merkmale erfolgten zwei grundlegende Experimente: Vergleiche zu Bench- 
marks auf bekannten Datenbanken und ein direkter Vergleich der Leistungs- 
fähigkeit mit Deep Learning Ansätzen. Mit den Experimenten wird gezeigt, 
dass der gewählte Merkmalssatz gleiche Leistungsfähigkeiten besitzt wie der 
Stand der Technik. Außerdem werden geschwindigkeitsabhängige Metriken 
betrachtet und evaluiert. Im folgenden Abschnitt wird mit dem Benchmark- 
Test begonnen. 


6.2.1 Benchmarkuntersuchung auf bekannten 
Datenbanken 


Um die Leistung des ASF Merkmalssatzes mit dem Stand der Technik zu ver- 
gleichen, erfolgen Tests auf bekannten Datenbanken: der CK Datenbank und 
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der OC Datenbank. Zunächst werden die Datenbanken isoliert betrachtet. 
Hierzu wird ein Kreuzvalidierungsschema verwendet, in dem fünf Durchläu- 
fe ausgeführt werden. Die Menge der Merkmale wird in ein fünftel Testdaten 
und vier fünftel Trainingsdaten aufgeteilt. Für die ASF Merkmale wird ein 
XGBoost Klassifikator eingesetzt. 


Es wird eine Parameteroptimierung mittels Gittersuche durchgeführt. Für je- 
den einzustellenden Parameter wird eine Menge von möglichen Parametern 
vorgegeben. Dabei wurde schrittweise nach der Anleitung von Analytics Vid- 
hya ' vorgegangen. Bei der Gittersuche wird für den zu optimierenden Para- 
meter eine Werteliste festgelegt. Diese Wertliste wird in einer Schleife durch- 
laufen und der Klassifikator wird mit dem Parameterwert per Kreuzvalidie- 
rung bewertet. Während jedes Schleifendurchlaufs wird die Genauigkeit der 
Prädiktion bewertet. Nach Abschluss der Kreuzvalidierung wird die durch- 
schnittliche Genauigkeit für den Parameterwert berechnet. Der Parameter- 
wert mit maximaler Genauigkeit wird als optimierter Parameter gewählt. 


Die Parameteroptimierung wird für jede der Datenbanken einzeln und für 
beide gemeinsam ausgeführt. Mit den optimierten Parametern werden die 
Versuche mit den Datenbanken durchgeführt. Zur Auswertung werden die 
Kennzahlen Genauigkeit, Präzision, Sensitivität und F} -Score berechnet. Für 
die Experimente werden die Bilddaten vorbereitet. Es werden nur Bilder mit 
dem vollständig ausgeprägten Gesichtsausdruck ausgewählt. In beiden Da- 
tenbanken sind Sequenzen von Einzelbildern gespeichert. Jede Sequenz be- 
ginnt mit einem neutralen Gesichtsausdruck und endet mit einem vollstän- 
dig ausgeprägten Gesichtsausdruck. Die Anzahl der Bilder wird maximiert, 
indem aus jeder Sequenz die drei letzten Bilder und das jeweils erste Bild aus- 
gewählt werden. Damit wurde eine ausreichend große Datenmenge erlangt. 
Für den Versuch stehen 1441 Bilder der CK Datenbank und 1517 Bilder der 
OC Datenbank zur Verfügung. Tabelle 6.1 zeigt die Verteilung der Bilder auf 
die Emotionsklassen. 


* https://www.analyticsvidhya.com/blog/2016/03/complete-guide-parameter-tuning-xgboost- 
with-codes-python/ (abgerufen am 23.05.2020) 
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Tabelle 6.1: Verteilung der Einzelbilder der CK und OC Datenbanken auf die sieben Basisemo- 
tionen Neutral, Wut, Ekel, Furcht, Freude, Traurigkeit und Uberraschung. 


Emotionsklasse | Anzahl CK | Anzahl OC 
Neutral 112 80 
Wut 180 240 
Ekel 198 240 
Furcht 198 240 
Freude 270 240 
Traurigkeit 225 240 
Uberraschung 258 237 
Summe 1441 1517 


6.2.1.1 XBoost Klassifikator Parameter 


In der Literatur wird zwischen dem Sechs- und Siebenklassenproblem unter- 
schieden. Beim Sechsklassenproblem wird auf die Verwendung der neutralen 
Klasse verzichtet. Für den Versuch wird der XGBoost Klassifikator verwendet. 
Als Optimierungskennzahl wird die Genauigkeit x,,, 


(TP + TN) 


“ace = (TP + TN + FN + FP) 


(6.5) 


verwendet, um den fiir den Datensatz optimalen Parameterwert zu ermitteln. 
Der Prozess der Parameteroptimierung wird anhand des Verlaufs der Genau- 
igkeit dargestellt. Die Parameteroptimierung wird systematisch durchgeführt. 
Es wird mit einem Standardparametersatz begonnen und es werden schritt- 
weise die korrekten Parameter eingestellt, sowie die optimale Anzahl an Bäu- 
men. 


Die Parameter des Klassifikators lassen sich in drei Gruppen aufteilen: allge- 
meine Parameter, Booster Parameter und Lern Parameter. 


Allgemeine Parameter Hier kann der Booster des Klassifikators beeinflusst 
werden. Gewählt werden können der Baum Booster und der linea- 
re Booster. Außerdem kann die Zahl der zu verwendenden Threads 
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eingestellt werden. Ebenso lässt sich der Detailgrad der Ausgabe 
einstellen. 


Booster Parameter Zu den Booster Parametern gehört die Variable n, die ähn- 
lich verwendet wird wie die Lernrate in Optimierungsverfahren. Zu- 
sätzlich gibt es noch die minimale Summe der Gewichte, die in einem 
Kindbaum gesammelt wird. Dieser Parameter beeinflusst das Overfit- 
ting. Die maximale Tiefe für Bäume in XGBoost dient ebenfalls der 
Kontrolle des Overfitting. Die maximale Anzahl der terminalen Blät- 
ter kann anstatt des Parameters der maximalen Baumtiefe verwendet 
werden. Der Parameter Gamma liefert einen Grenzwert für die Reduk- 
tion der Loss-Funktion, die minimal um diesen Wert reduziert werden 
muss, damit ein Baumsplit akzeptiert wird. Der Parameter Max Del- 
ta Step wird verwendet, um den Update Schritt konservativer zu ma- 
chen. Generell wird dieser Parameter nicht verwendet, außer im Fall 
von schlecht balancierten Datensätzen für die logistische Regression. 
Mittels Subsample wird der Anteil der Beobachtungen eingegrenzt, der 
als Zufallssample ausgewählt wird. Damit soll Overfitting vermieden 
werden, allerdings ist Underfitting möglich. Der Parameter Colsample 
By Tree gibt den Anteil der Spalten eines Merkmalsvektors an, aus dem 
zufällig Spalten gezogen werden. Dieser Parameter ist vergleichbar mit 
der Angabe der maximalen Anzahl an Merkmalen in anderen Algorith- 
men. Der Parameter Colsample By Level ist eine Alternative zu Colsam- 
ple By Tree und Subsample. In dieser Arbeit werden Subsample und 
Colsample By Tree verwendet. Der L Regularisierungsterm A wird ver- 
wendet um Overfitting zu kontrollieren. Der Parameter a ist ein L4- 
Regularisierungsterm und wird zur Beschleunigung der Konvergenz bei 
hoch-dimensionalen Merkmalen verwendet. Mit dem Parameter Scale 
Positive Weights werden schlecht balancierte Klassensamples höher ge- 
wichtet. 


Lern Parameter Die Lern Parameter setzen sich zusammen aus den Parame- 
tern Objective, Evaluationsmetrik und Random Seed. Der Parameter 
Objective bezieht sich auf die Zielfunktion für den Baumoptimierer. Für 
die binäre Klassifikation wählt man binary:logistic, für die Multiklassen 
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Klassifikation multi:softmax für Multiklassen Klassifikation und für die 
Ausgabe von Wahrscheinlichkeiten bei der Multiklassen Klassifikati- 
on multi:softprob. Für die vorliegende Problemstellung wird die Einstel- 
lung multi:softmax für die reine Klassifikation und multi:softprob für 
die Verwendung einer Reject-Option eingesetzt. Mit der Evaluationsme- 
trik wird die Lossfunktion bestimmt. Hier muss zwischen Regressions- 
und Klassifikationslossfunktionen gewählt werden. Durch den Random 
Seed Parameter kann für reproduzierbare Ergebnisse gesorgt werden. 


6.2.1.2 Klassifikation mit der CK Datenbank 


Für die Parameteroptimierung werden nacheinander einzelne Parameter op- 
timiert. Zunächst werden die Parameter Maximale Tiefe und Minimale Sum- 
me der Gewichte gemeinsam optimiert. Dafür werden je fünf Werte für beide 
Parameter eingestellt und paarweise durchlaufen, sodass jede Kombination 
verarbeitet wird. Im nächsten Schritt erfolgt die Optimierung des Parame- 
ters Gamma, wobei hier auf fünf Parameter zurückgegriffen wird. Der drit- 
te Parameterschritt umfasst die Optimierung der Parameter Subsample und 
Colsample By Tree mit jeweils fünf möglichen Parameterwerten. Der vier- 
te Schritt optimiert den ersten Regularisierungsparameter æ zunächst grob 
aus fünf Parameterwerten. Im fünften Schritt wird a mit fünf weiteren mög- 
lichen Parameterwerten fein eingestellt. Der sechste und siebte Schritt stellt 
den Regierungsparameter A ein. Es wird eine fünffache Kreuzvalidierung für 
die Optimierung ausgeführt. Das heißt, in jedem Schritt werden 20 Prozent 
der Samples als Testmenge und 80 Prozent der Samples als Trainingsmenge 
verwendet. Während jedes Schritts bleiben die restlichen Parameter auf dem 
bis dahin ermittelten Wert fixiert. Für die erste Optimierung wird ein Initiali- 
sierungsparametersatz laut Tabelle 6.2 verwendet. Die verwendete Implemen- 
tierung des XGBoost Klassifikators entstammt DMLC '. 


* http://xgboost.ai 
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Tabelle 6.2: Initialisierungsparameter für den XGBoost Klassifikator. 


Parameter Wert 
Lernrate (7) 0.1 
Anzahl Schätzer 1000 
Maximale Tiefe 5 
Minimale Summe der Gewichte 1 

y 0 
Subsample 0.8 
Colsample By Tree 0.8 
Scale Positive Weight 1 
Random Seed 27 


Tabelle 6.3: Optimierte Parameter fiir das Sechs- und Siebenklassenproblem auf der CK Daten- 


bank. 

Parameter 6 Klassen | 7 Klassen 
Maximale Tiefe 9 5 
Minimale Summe der Gewichte 1 1 

y 0 0 
Subsample 0.6 0.65 
Colsample By Tree 0.55 0.7 

a 0 0 

A 1 1 
Anzahl Schätzer 182 294 


Nach jedem Optimierungsschritt wird die Genauigkeit als Kennzahl ausge- 
wertet. Die Entwicklung der Genauigkeit über dem Verlauf der Parameterop- 
timierungsschritte ist in Abbildung 6.13 abgebildet. Die Ergebnisse der Para- 
meteroptimierungen sind für das Sechsklassenproblem und das Siebenklas- 
senproblem getrennt dargestellt. In der Abbildung ist zu erkennen, dass die 
Genauigkeit mit jedem Optimierungsschritt für beide Klassifikationsproble- 
me steigt. 


Die resultierende Parametermenge für beide Probleme ist in Tabelle 6.3 dar- 
gestellt. 
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Abbildung 6.13: Entwicklung der Zielgröße Genauigkeit unter der Parameteroptimierung für 
die Cohn-Kanade Datenbank. Die Entwicklung der Genauigkeit fiir das Sechs- 
und Siebenklassenproblem. 


Unter Verwendung der optimierten Parameter fiir das Sechs- und Siebenklas- 
senproblem erfolgte eine Kreuzvalidierung auf der CK Datenbank. Fiir das 
Sechsklassenproblem wurden die Bilder fiir die Klasse Neutral ausgelassen. 
Für die Ergebnisdarstellung werden neben der Sensitivität die Präzision und 
der F,-Score verwendet. Die Tabelle 6.4 zeigt die Ergebnisse für das Sechs- 
und Siebenklassenproblem. 


Vergleicht man die erreichte Sensitivität für das Sechs- und Siebenklassen- 
problem in Tabelle 6.4, so fällt auf, dass die neutrale Klasse mit Abstand das 
schwächste Ergebnis erreicht. Durch die geringe Sensitivität der neutralen 
Klasse verringern sich die erreichten Sensitivitäten der übrigen Klassen. Dies 
kann durch eine große Ähnlichkeit des neutralen Gesichtsausdrucks zu vielen 
der übrigen Klassen begründet werden. Die Konfusionsmatrix in Abbildung 
6.14 verdeutlicht diesen Umstand. 


175 


6 Erkennung von emotionalen Gesichtsausdriicken 


Tabelle 6.4: Klassifikationsergebnisse fiir das sechs und sieben Klassenproblem auf der CK Da- 


tenbank mit dem XGBoost Klassifikator und den optimierten Parametern. 


Problem | Klasse | Sensitivität | Präzision F}-Score 
A 0.96 +0.02 | 0.89+0.02 | 0.92 + 0.02 
D 0.95 +0.04 | 0.96 + 0.03 | 0.96 + 0.01 
F 0.82 +0.06 | 0.90 +0.04 | 0.86 + 0.04 

6 Klassen | H 0.96 + 0.03 | 0.95+0.02 | 0.95+0.01 
S 0.93 +0.04 | 0.92 + 0.04 | 0.92 + 0.02 
U 0.97 +0.02 | 0.98 + 0.02 | 0.98 + 0.02 
Total 0.93 +0.05 | 0.93 +0.03 | 0.93 + 0.04 
N 0.50 +0.12 | 0.85 +0.10 | 0.61 + 0.08 
A 0.94 +0.04 | 0.80 +0.04 | 0.87 + 0.02 
D 0.94 +0.03 | 0.93 + 0.02 | 0.94 + 0.02 

7 Klassen F 0.79 + 0.04 | 0.83 +0.03 | 0.81 +0.02 
H 0.95 + 0.03 | 0.93 +0.01 | 0.94 + 0.02 
S 0.95 +0.01 | 0.88 +0.05 | 0.91 + 0.03 
U 0.96 + 0.03 | 0.98 + 0.02 | 0.97 + 0.02 
Total 0.86 +0.16 | 0.89 +0.06 | 0.86+0.11 


Abbildung 6.14: Konfusionsmatrix des Siebenklassenproblems für die CK-Datenbank. 
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Insbesondere Samples der Klassen A, F und S werden der Klasse N zugeord- 
net. Diese konnten nicht der eigentlichen Klasse zugeordnet werden. Um ei- 
ne höhere Genauigkeit zu erreichen, besteht die Möglichkeit eine unbekannte 
Klasse hinzuzufügen. Im Hinblick auf die dynamische Erkennung von Emo- 
tionen und die Verfolgung der Emotionsklassen kann so mit Fehlklassifika- 
tionen umgegangen werden. Wendet man eine unbekannte Klasse an, muss 
ein Kriterium eingeführt werden, um Objekte dieser Klasse zuzuordnen. Zu 
diesem Zweck muss die Prädiktion unter Angabe der bedingten Klassenwahr- 
scheinlichkeiten erfolgen. Durch Auswahl eines Grenzwerts für die bedingte 
Wahrscheinlichkeit kann dann die Klasse zugeordnet werden. Der Grenzwert 
bildet eine untere Grenze, die übertroffen werden muss, damit die Klasse zu- 
geordnet werden kann. Unterschreiten alle bedingten Wahrscheinlichkeiten 
diese Grenze, erfolgt die Zuordnung zur unbekannten Klasse. Die Ausgabe 
des Klassifikators wird durch 


arg max, exf (xiy) (6.6) 


gegeben, wobei x eine Klasse aus der Menge K = {N,A,D,F,H,S, U} ist 
und y den beobachteten Merkmalsvektor bezeichnet. f (-) beschreibt die be- 
dingte Wahrscheinlichkeit als Ausgabe des Klassifikators. Unter Verwendung 
einer Bedingung für die Auswahl einer Klasse muss eine Ablehnungsoption 
eingeführt werden. Bei der Ablehnungsoption (engl. Rejection Option) wird 
ein Schwellwert gesetzt, der die Klassenzuweisung zurückweist, wenn die ma- 
ximale posteriore Wahrscheinlichkeit kleiner ist als dieser Schwellwert. Die 
Wahl des Schwellwerts kann eingegrenzt werden. In dem vorliegenden Pro- 
blem gibt es k = 7 Klassen. Für die posterioren Wahrscheinlichkeiten gilt 


yi = Kxly) =1, (6.7) 
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Tabelle 6.5: Genauigkeiten der Einzelklassenexperimente mit der CK-Datenbank. Fir das Sie- 
benklassenproblem wurde ebenfalls eine Ablehnungsoption mit © = 0.5 verwen- 
det. 


Anwendung Genauigkeit 


6 Klassen 0.93 + 0.01 
7 Klassen 0.89 + 0.01 
7 Klassen + Reject | 0.91 + 0.01 


wobei Kp der k-ten Klasse aus der Menge K entspricht und f (xiy) die poste- 
riore Wahrscheinlichkeit ist, wenn y zur Klasse x gehört. Aufgrund von (6.7) 
gilt, dass bei Verwendung eines Schwellwerts 6 = 1/k jedes Sample angenom- 
men wird, da diese Wahrscheinlichkeit entweder immer erreicht oder tiber- 
troffen wird. Bei der Verwendung des Schwellwerts O = 1 wird jedes Sample 


abgelehnt, da 


max; f (xiy) <1 (6.8) 


gilt. Demnach muss der Schwellwert 8 in dem offenen Intervall (1/k, 1) ent- 
halten sein. Durch die Verwendung der Ablehnungsoption konnte die Genau- 
igkeit verbessert werden. In Tabelle 6.5 sind die Genauigkeiten des Einzelklas- 
senexperiments aufgelistet. Als Zusatz ist in der Tabelle die Genauigkeit unter 
Verwendung eines Schwellwerts von 0.5 enthalten. 


Unter Verwendung der Ablehnungsoption konnten die Genauigkeit und die 
Erkennungswahrscheinlichkeit für die neutrale Klasse erhöht werden. Abge- 
lehnte Samples werden der Klasse Unbekannt zugeordnet. Die abgelehnten 
Samples gehen nicht in die Bewertung der Genauigkeit mit ein. Aus diesem 
Grund werden nur jene Samples verwendet, die nicht abgelehnt wurden. 
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Tabelle 6.6: Optimierte Parameter fiir das Sechs- und Siebenklassenproblem auf der OC Daten- 


bank. 

Parameter 6 Klassen | 7 Klassen 
Maximale Tiefe 12 5 
Minimale Summe der Gewichte 1 1 

y 0 0 
Subsample 0.8 0.65 
Colsample By Tree 0.75 0.7 

a 0 0 

A 0.001 1 
Anzahl Schätzer 49 294 


6.2.1.3 Klassifikation mit der OC Datenbank 


Neben der CK Datenbank erfolgten Experimente auf der OC Datenbank der 
finnischen Oulu-Casia Universität. Wie bereits im vorherigen Abschnitt be- 
richtet, wurden 1517 Bilder aus der OC Datenbank extrahiert und für die Aus- 
wertung mit dem behandelten Merkmalssatz vorbereitet. In ähnlicher Wei- 
se wie bei der CK Datenbank erfolgten Auswertungen des Sechs- und Sie- 
benklassenproblems. Äquivalent zum vorherigen Abschnitt erfolgte für beide 
Problemklassen eine Optimierung der Parameter für den XGBoost Klassifi- 
kator. Die optimierten Parametereinstellungen für den XGBoost Klassifikator 
sind in Tabelle 6.6 enthalten. 


Die Ergebnisse des Sechs- und Siebenklassenproblems sind in Tabelle 6.7 auf- 
geführt. Enthalten sind die Kennzahlen Sensitivität, Präzision und F,-Score 
pro Klasse und wurden über allen Klassen gemittelt. 


Die Tabelle 6.7 zeigt schwächere Ergebnisse im Vergleich zu den Ergebnissen 
der CK-Datenbank. Dies kann mit der geringeren Auflösung der Bilddaten er- 
klärt werden. Aufgrund der geringeren Auflösung sind die Details schlechter 
zu erkennen. Dieser Umstand kann verbessert werden, indem ein optimierter 
Algorithmus zur Detektion von Landmarken verwendet wird. Um den Ver- 
gleich weiter zu führen, muss das schlechte Ergebnis der Erkennung für den 
neutralen Zustand betrachtet werden. Bei einer Verwendung von sieben Klas- 
sen ist eine durchschnittliche Sensitivität von acht Prozent sehr gering. Zur 
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Tabelle 6.7: Klassifikationsergebnisse fiir das Sechs- und Siebenklassenproblem auf der OC Da- 


tenbank mit dem XGBoost Klassifikator und den optimierten Parametern. 


Problem | Klasse | Sensitivität | Präzision F}-Score 
A 0.63 +0.04 | 0.90 +0.05 | 0.74 + 0.03 
D 0.77 +0.08 | 0.58 +0.25 | 0.62 + 0.13 
F 0.75 +0.13 | 0.69 +0.21 | 0.68 + 0.07 

6 Klassen | H 0.74 +0.06 | 0.94 + 0.02 | 0.82 + 0.04 
S 0.72 +0.07 | 0.88 +0.06 | 0.79 + 0.04 
U 0.71 +0.05 | 0.93 +0.03 | 0.80 + 0.04 
Total 0.72 +0.04 | 0.82 +0.14 | 0.74 + 0.07 
N 0.08 +0.05 | 0.40 +0.20 | 0.12 + 0.07 
A 0.67 +0.05 | 0.85 +0.03 | 0.74+0.02 
D 0.72 +0.12 | 0.67 +0.26 | 0.65 + 0.13 
F 0.81 +0.15 | 0.57 +0.20 | 0.62 + 0.07 

PERS. 0.73#0.06 | 0.90 +0.03 | 0.81 + 0.04 
S 0.72 +0.06 | 0.85 +0.06 | 0.78 + 0.05 
U 0.71 +0.04 | 0.92 + 0.03 | 0.80 + 0.03 
Total 0.63 +0.23 | 0.74 +0.18 | 0.65 + 0.22 


Analyse des Ergebnisses wird die Konfusionsmatrix zur Betrachtung hinzu- 
gezogen. Die Konfusionsmatrix des Siebenklassenproblems ist in Abbildung 
6.15 dargestellt. 


Die meisten Fehlzuordnungen von Samples der Klasse Neutral entstanden in 
der Klasse F (Furcht). Ungefähr 38 Prozent der Samples wurden falsch zuge- 
ordnet. An zweiter Stelle wurden 16 Prozent der Samples der Klasse D (Ekel) 
und 14 Prozent der Samples der Klasse H (Freude) zugeordnet. In Summe ent- 
spricht das bereits 68 Prozent der Samples. Um dieses Ergebnis zu erläutern, 
kann auf die Verteilung der Samples auf die Klassen zurückgegriffen werden. 
Bis auf die Klasse N sind für alle weitere Klassen 240 Bilder vorhanden. Nur 
ein Drittel dieser Anzahl, 80 Bilder, sind aus der Klasse N vorhanden. Somit ist 
die Klasse stark unterrepräsentiert. Durch eine Erhöhung des Anteils an neu- 
tralen Bildern könnte hier eine Verbesserung erreicht werden. Eine weitere 
Erhöhung der Trainingssamples könnte die Ergebnisse weiter stabilisieren. 
Hierbei handelt es sich um Empfehlungen für eine Erweiterung der Untersu- 
chung. Bisher wurde diese Untersuchung noch nicht durchgeführt. 
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Abbildung 6.15: Konfusionsmatrix mit den relativen Sensitivitaten der einzelnen Klassen und 
Fehlzuordnungen fiir den Siebenklassentest mit der OC Datenbank. 


Da der Stand der Technik hauptsächlich auf Methoden aus den Fundus der 
Tiefen Neuronalen Netze besteht, ist der Vergleich mit ebendiesen Methoden 
unabdingbar. Der folgende Abschnitt behandelt den Vergleich mit dem Stand 
der Technik. 


6.2.2 Vergleich mit Deep Learning Ansätzen zur 
Emotionserkennung 


Tiefen Neuronalen Netzen liegt die Annahme zugrunde, dass ein solches Netz 
selbständig relevante Merkmale aus Eingabedaten bezieht, um eine korrek- 
te Klassifikation durchzuführen. In der idealen Vorstellung wird davon aus- 
gegangen, dass ohne Verwendung von Vorverarbeitungsschritten eine gute 
Klassifikation möglich ist. Betrachtet man die aktuelle Literatur zum Stand 
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der Technik in Abschnitt 2.3, gibt es viele Methoden, die auf künstliche Neu- 
ronale Netze zurückgreifen. Die meisten Veröffentlichungen zu Tiefen Neu- 
ronalen Netzen für die Emotionserkennung unterscheiden sich in der Vor- 
verarbeitung. Die Netze besitzen nur leichte Unterschiede. Aus diesem Grund 
ist der Vergleich eines klassischen auf Merkmalen basierten Verfahrens mit 
Tiefen Neuronalen Netzen wichtig. 


Der hier beschriebene Merkmalssatz basiert auf der Berechnung spezialisier- 
ter Merkmale, die aus der Struktur des Gesichtsausdrucks extrahiert werden. 
Die Merkmalsextraktion ist vom verwendeten Klassifikator unabhängig. Der 
verwendete Klassifikator kann auf Basis der gewünschten Genauigkeit ausge- 
wählt werden. Aus diesem Grund wurde im vorherigen Kapitel der XGBoost 
Klassifikator verwendet. In diesem Kapitel werden Ergebnisse nach dem Stand 
der Technik mit den ermittelten Werten für den in dieser Arbeit entwickel- 
ten Merkmalssatz verglichen. Neben Ergebnissen, die im Rahmen von Veröf- 
fentlichungen angegeben wurden, werden in dieser Arbeit eigene Ergebnisse 
unter Verwendung eines VGG-16 Netzes, basierend auf einer Keras Imple- 
mentierung ermittelt. Das Netz wurde von Simonyan et al. in [Sim14] veröf- 
fentlicht. Das Netz wurde mit vorab trainierten Gewichten initialisiert. Die 
Gewichte resultierten aus einem Training des Netzes mit dem ImageNet Da- 
tensatz von Deng et al. [Den09]. Die Anpassung des Netzes auf das Sechsklas- 
senproblem der Emotionserkennung erfolgt durch Feinabgleich. Dazu wird 
die Ausgabeschicht durch eine Softmax-Schicht mit sechs Ausgabeknoten er- 
setzt und die Gewichte der darunterliegenden Schichten werden fixiert. Um 
Overfitting zu vermeiden erfolgte der Einsatz einer Dropout-Schicht vor der 
Ausgabe-Schicht. 


In der Vorverarbeitung der Bilder erfolgten mehrere Schritte: 


e Ausschneiden der Gesichtsregion des Bildes 
e Anpassung der Größe des Ausschnittes auf 224 x 224 Pixel 


e Anpassung der Helligkeit durch Gamma-Korrektur mit Exponent 0.5 


Die Vorverarbeitung der Bilder erfolgte für beide Methoden identisch. Die 
Bilder werden direkt als Eingabe in das VGG-16 Netz gegeben. Für den ASF 
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Tabelle 6.8: Vergleichsergebnisse fiir den CK Datensatz. 


Methode | Klasse | Sensitivität | Präzision | F,-Score 


0.51 +0.09 | 0.98 +0.04 | 0.66 + 0.08 
0.88 + 0.07 | 0.95+0.06 | 0.91 + 0.03 
0.98 + 0.02 | 0.77+0.02 | 0.86 + 0.02 
0.92 + 0.04 | 0.97+0.03 | 0.94 + 0.03 
0.98 + 0.02 | 0.79+0.02 | 0.87 + 0.01 
0.98 + 0.02 | 0.97 +0.02 | 0.97 + 0.01 

Total 0.88 +0.18 | 0.90 +0.10 | 0.87 + 0.11 


VGG-16 


GY tte 


Merkmalssatz erfolgt zunächst die Extraktion der Merkmale aus den Bildern. 
Die Merkmalsextraktion im neuronalen Netz erfolgt durch Traversion durch 
das gesamte Netz. In diesem Experiment wurden die sechs Basisemotionen 
verwendet. Im ersten Experiment wird die CK-Datenbank ausgewertet. Die 
Ergebnisse des VGG-16 Netzes sind in Tabelle 6.8 für die CK-Datenbank und 
in Tabelle 6.9 für die OC-Datenbank gegeben. In Tabelle 6.8 fällt sofort auf, 
dass die Sensitivität für die Klasse A sehr gering ist und die Präzision sehr 
hoch. Dieses Ergebnis zeigt, dass die Zuordnungen zu Klasse A sehr eng bei- 
einander liegen. Zusätzlich fällt eine hohe Sensitivität mit geringer Präzision 
bei den Klassen F und S auf. Aufgrund des ähnlichen Aussehens der Klassen 
A, S und F kann davon ausgegangen werden, dass ca. 50 Prozent der Sam- 
ples aus Klasse A sich auf die Klassen F und S verteilt haben. Für den direk- 
ten Vergleich können die Ergebnisse in Tabelle 6.4 für den ASF Merkmalssatz 
herangezogen werden. 


Das VGG-16 Netz erreicht hervorragende Ergebnisse in der Sensitivität der 
Klassen F, S und U, wohingegen die Präzision schwächer ausfällt. Im direkten 
Vergleich schneidet der ASF Merkmalssatz in Tabelle 6.4 unter Verwendung 
des XGBoost Klassifikators besser ab, da sowohl Sensitivität, als auch Präzisi- 
on in ähnlicher Höhe vorliegen. Die schwächste Klasse des VGG-16 Netzes 
ist A. 


Die Ergebnisse des Tests mit der OC Datenbank sind in Tabelle 6.9 enthalten. 
Hier fallen die grundsätzlich geringeren Werte für die Sensitivität und Präzi- 
sion auf. Diese entstehen aufgrund des geringen Kontrasts der Bilddaten der 
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Tabelle 6.9: Ergebnisse zum Vergleich der Leistung von VGG-16 auf dem OC Datensatz. 

Methode | Klasse | Sensitivität | Präzision F,-Score 

A 0.23+0.19 | 0.87+0.17 | 0.31 + 0.17 

D 0.65+ 0.11 | 0.49 + 0.07 | 0.55 + 0.04 

F 0.52 + 0.05 | 0.43 + 0.12 | 0.46 + 0.08 
VGG-16 H 0.50+0.11 | 0.58+0.18 | 0.51 + 0.06 

S 0.10+0.10 | 0.48 + 0.26 | 0.16+0.15 

U 0.96+0.31 | 0.57+0.18 | 0.69 + 0.13 

Total 0.49+0.31 | 0.57+0.16 | 0.45+ 0.19 


OC-Datenbank. Besonders gravierend ist der Sensitivitätswert für die Klasse 
S. Die geringe Sensitivität zeigt, dass nur zufällig Samples korrekt der Klas- 
se S zugeordnet werden. Das lässt sich aufgrund der großen Ähnlichkeit der 
Bilder der Klasse A, S und F erklären. 


Das VGG-16 Netz schneidet auf dem OC Datensatz sehr schlecht ab, obwohl 
für die Klasse U eine sehr hohe Sensitivität erreicht wird. Auch hier ist es auf- 
fällig, dass die Präzision sehr viel schwächer ist als die Sensitivität, wodurch 
das Gesamtergebnis sehr schlecht wird. Die schwächste Klasse ist S, wo nur 
knapp 10 Prozent der Samples korrekt erkannt werden. Die Erkennungsra- 
ten bei dem ASF Merkmalssatz in Tabelle 6.7 weisen eine hohe Präzision auf 
und sind in einem ähnlichen Bereich verteilt. Lediglich die Klassen D und F 
besitzen schwache Präzisionsraten. 


Um stabilere Ergebnisse zu erreichen, ist ein Experiment unter Verwendung 
der gemischten Datenbanken CK und OC durchgeführt worden. Das ergab 
eine Menge von 2766 Bildern, die entsprechend der Tabelle 6.1 verteilt sind. 
Die Ergebnisse des Tests in den vereinten Datenbanken sind in Tabelle 6.10 
für beide Methoden ASF und VGG-16 dargestellt. 


Ausgehend von den Ergebnissen der OC Datenbank in Tabelle 6.9 konnten die 
Ergebnisse für beide Methoden signifikant verbessert werden. Die Ergebnisse 
der CK Datenbank werden nicht erreicht, jedoch ist die Erkennungsrate für 
die Klasse U für das VGG-16 Netz perfekt. Die Präzision liegt ungefähr bei 50 
Prozent. Das bedeutet, dass deutlich mehr Samples der anderen Klassen der 
Klasse U zugeordnet wurden. 
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Tabelle 6.10: Ergebnisse zum Vergleich der Leistung von ASF und VGG-16 auf den vereinten 


Datensätzen CK und OC. 

Methode | Klasse | Sensitivität | Präzision F}-Score 
A 0.78+0.07 | 0.76 +0.12 | 0.76 +0.05 
D 0.83 +0.06 | 0.69+0.17 | 0.74 +0.08 
F 0.75+0.06 | 0.89+0.15 | 0.76 + 0.07 

ASF H 0.85 +0.02 | 0.93 + 0.03 | 0.89 + 0.02 
S 0.79 +0.03 | 0.88 + 0.03 | 0.83 + 0.03 
U 0.83 + 0.03 | 0.96 + 0.02 | 0.89 + 0.01 
Total 0.81 +0.03 | 0.84 +0.10 | 0.81 0.06 
A 0.33 +0.11 | 0.82 +0.10 | 0.46 + 0.10 
D 0.67 +0.11 | 0.74+0.11 | 0.69 + 0.06 
F 0.38 +0.10 | 0.75 +0.06 | 0.49 + 0.08 

VGG-16 H 0.70 +0.10 | 0.87 +0.03 | 0.77 + 0.06 
S 0.83 +0.06 | 0.76 +0.06 | 0.79 + 0.04 
U 1.00 +0.00 | 0.49 +0.09 | 0.66 + 0.07 
Total 0.65 +0.26 | 0.74 +0.13 | 0.64 + 0.14 


Tabelle 6.11: Genauigkeit der betrachteten Verfahren unter Verwendung der einzelnen Daten- 


banken CK und OC und der vereinten Datenbank CK mit OC. 


Modell CK OC CK und OC 
ASF 0.93 + 0.01 | 0.72 +0.03 | 0.81 + 0.01 
VGG16 0.89 + 0.02 | 0.49 +0.06 | 0.66 + 0.05 
Lopes et al. [Lop17] 0.97 — = 

Liu et al. [Liu15] 0.92 — — 
Mollahosseini et al. 0.93 — — 
[Mol16] 

Liu et al. [Liu16] 0.95 0.79 = 


Im Vergleich zur alleinigen Verwendung des OC Datensatzes sind die Erken- 
nungsraten des ASF Merkmalssatzes gestiegen. Dabei konnten hohe Raten bei 
der Präzision beibehalten werden. Für die Klassen D und F konnten die Präzi- 
sionsraten verbessert werden. Insgesamt ergaben sich demnach für beide Me- 
thoden verbesserte Raten in allen Bereichen. Zur vollständigen Betrachtung 
der Ergebnisse werden die Genauigkeiten verglichen. In Tabelle 6.11 sind die 
Genauigkeiten für alle Datenbanken und Methoden dargestellt. 
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Aus den Genauigkeitswerten ist erkennbar, dass die ASF Merkmale mit den 
Ergebnissen aus dem Deep Learning Umfeld äquivalent sind. In einzelnen Fal- 
len konnten bessere Ergebnisse erziehlt werden. Im Fall der OC Datenbank 
sind vergleichbare Ergebnisse erreicht worden. Die guten Ergebnisse der Deep 
Learning Verfahren werden mit einem hohen Aufwand für die Vorverarbei- 
tung erkauft. Der Aufwand ist viel höher als der Aufwand der Vorverarbei- 
tung, der für die ASF Merkmale betrieben wird. Des Weiteren hängt die Ge- 
nauigkeit der Klassifikation basierend auf den ASF-Merkmalen von der Güte 
der Landmarkenextraktion ab. 


6.3 Zusammenfassung 


In Kapitel 6 wurde die Erkennung von emotionalen Gesichtsausdrücken in 
statischen Bilddaten behandelt. Dazu wurde zunächst die Problemstellung er- 
läutert und die Erkennung des emotionalen Gesichtsausdrucks als Muster- 
erkennungsproblem erläutert. Die Darstellung als Mutererkennungsproblem 
basiert darauf, dass aus den Bildern Merkmale extrahiert werden, aus denen 
bezogen auf die zuzuordnenden Klassen Muster gelernt werden. Die Wieder- 
erkennung der Muster resultiert in der Zuordnung des Merkmalsvektors zu ei- 
ner der Klassen entsprechend den Basis-Emotionen nach Ekman [Ekm99]. Das 
Kapitel behandelt die in dieser Arbeit verwendeten Merkmale, die zur Klassifi- 
kation der emotionalen Gesichtsausdrücke verwendet werden. Die Merkmale 
werden in zwei Schritten generiert: der erste Schritt umfasst die Extraktion 
von Landmarken aus den Bildern; im zweiten Schritt erfolgt die Extraktion 
von Winkel- und Größenmerkmale. 


Für die Extraktion der Landmarken wird zunächst eine Reihe von Vorverar- 
beitungsschritten ausgeführt, zunächst die Erkennung des Gesichts und die 
Reduzierung des Ausschnitts auf das Gesicht. Dann wird der Ausschnitt ska- 
liert, um eine einheitliche Größe zu garantieren. Als abschließender Prozess- 
schritt erfolgt eine Korrektur des Gammawerts, um die Helligkeit des Bildes 
anzupassen. Ausgehend von diesen Bildtransformationen erfolgt die Anpas- 
sung des 68-Punkte umfassenden Landmarkenmodells an das Eingabebild. 
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Der zweite Schritt, die Extraktion und Berechnung der Merkmale, wird unter 
Verwendung der Landmarken ausgeführt. Das strukturelle Wissen über das 
Gesicht und die Bewegungen der Gesichtsmuskulatur werden ausgenutzt, um 
Winkelmerkmale zu generieren. Die Winkel werden aus dem Schnitt von Ge- 
raden berechnet. Die Geraden dienen der Approximation verschiedener Ge- 
sichtsstrukturen sowie der Modellierung verschiedener Verbindungen zwi- 
schen Gesichtsregionen. Um eine fundierte Auswahl der Winkel zu ermög- 
lichen, erfolgte zunächst eine Analyse der Varianz zwischen den einzelnen 
Emotionsklassen. Dieser Analyse-Schritt ermittelte die Winkel, die die höchs- 
te Varianz vorwiesen und somit eine hinreichend große Variabilität zwischen 
den Klassen ermöglicht. Neben Winkelmerkmalen wurden aufgrund der Form 
der emotionalen Gesichtsausdrücke Größenmerkmale extrahiert. Betrachtet 
man verschiedene Gesichtsausdrücke, fällt auf, dass die Größe des Munds und 
der Augen starken Variationen unterliegt. Die Größe der Augen bezieht sich 
hierbei auf die Größe des sichtbaren Auges. Um die Größe dieser beiden Ge- 
sichtsregionen zu extrahieren, erfolgt eine Approximation dieser Formen mit- 
tels Ellipsen. Hierzu werden im Fall der Augen alle Punkte des Auges verwen- 
det und im Fall des Munds nur jene Punkte ausgewählt, die den äußeren Rand 
der Lippen betreffen. Durch die Least-Squares-Methode erfolgt die Schätzung 
der Ellipsenparameter. Zur Berechnung der Größe wird das Verhältnis der 
beiden Halbachsen verwendet. Hierzu wird die Länge der kurzen Halbach- 
se durch die Länge der großen Halbachse geteilt, um einen Wert kleiner eins 
zu erhalten. Letztlich beschließt die Extraktion der Größen beider Augen und 
des Mundes die Merkmalsgenerierung. 


Durch die Extraktion der Winkel- und Größenmerkmale erfolgt eine Reduk- 
tion des Merkmalsvektors. Geht man von dem 68 Punkte umfassenden Land- 
markenmodell aus, so besteht der zugehörige Merkmalsvektor aus 136 Einzel- 
merkmalen, aufgrund der x- und y-Koordinaten der Landmarken. Aus diesen 
68 Punkten wurden insgesamt 26 Winkel- und drei Größenmerkmale gewon- 
nen. Das entspricht 29 Einzelmerkmalen für den Merkmalsvektor. Der extra- 
hierte Merkmalsvektor entspricht einer Reduktion der Dimension auf 21.32 
Prozent des ursprünglichen Merkmalsvektors. 
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Fir die Klassifikation wird in dieser Arbeit der XGBoost-Klassifikator ein- 
gesetzt. Um bestmögliche Ergebnisse zu erzielen, wurde in der Experiment- 
sektion eine Parameteroptimierung etabliert, bei der unter Verwendung von 
Kreuzvalidierung die Parametereinstellung optimiert wurde. In den Experi- 
menten wurden zwei Datenbanken mit emotionalen Gesichtsausdrücken ver- 
wendet: die Cohn-Kanade+ Datenbank (CK) und die Oulu-Casia Datenbank 
(OC). Beide Datenbanken enthalten Sequenzen von Bildern, in denen vom 
neutralen Gesichtsausdruck auf einen der sechs Gesichtsausdrücke der Basis- 
emotionen übergegangen wird. Aus diesen Sequenzen wurden jeweils die drei 
letzten Bilder entnommen und für die Klassifizierung vorbereitet. Zusätzlich 
wurde von jedem Probanden, der in der Datenbank enthalten ist, ein neu- 
trales Bild entnommen. Somit konnte das Sechs- und Siebenklassenproblem 
bearbeitet werden, wobei im Sechsklassenproblem alle sechs Basisemotionen 
enthalten sind und im Siebenklassenproblem die Neutrale Klasse hinzugefügt 
wird. Für jede Emotionsklasse wurde jeweils ein Sechs- und ein Siebenklas- 
senmodell generiert. Es wurden vier Modelle erzeugt. Der Modellerzeugung 
geht immer eine Parameteroptimierung voran. Zusätzlich erfolgte zu den Ein- 
zelklassentests noch ein Experiment mit einer Rejection-Option als Vorbe- 
reitung für die Verwendung des Klassifikators im dynamischen Modell zur 
Emotionserkennung. Zum Abschluss der Experimentsektion erfolgte ein Ver- 
gleichstest mit einem neuronalen Netz zur Emotionsklassifikation. In diesem 
Vergleichstest wurde das VGG-16 Netz von Simonyan et al. [Sim14] verwen- 
det. Das Netz wurde mit den ImageNet-Gewichten initialisiert und die letzte 
Schicht wurde durch eine Dropout-Schicht und eine voll vernetzte Softmax- 
Schicht ersetzt. Die ImageNet-Gewichte wurden in den unteren Schichten 
fixiert und zur Feinjustierung des Netzes wurden die Gewichte der oberen 
Schichten mit den neuen Daten trainiert. In den Experimenten hat sich ge- 
zeigt, dass ein großes Maß an Vorverarbeitungsschritten notwendig ist, um 
den Stand der Technik nachzubilden. Es muss sehr viel Aufwand betrieben 
werden, um gute Ergebnisse zu erzielen. Der in dieser Arbeit etablierte Merk- 
malssatz konnte vergleichbare Ergebnisse erzielen wie der Stand der Technik. 
Mit einer fundierten Merkmalsgenerierung können vergleichbare, bis hin zu 
besseren Ergebnisse erzielt werden, als es mit neuronalen Netzen möglich 
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ist. Die Ergebnisse sind damit kontrollierbarer und es kann auf verschiede- 
ne Klassifikatoren zurückgegriffen werden. Zusätzlich muss deutlich weniger 
Aufwand aufgebracht werden, um die Daten vorzuverarbeiten. 


Dieses Kapitel hat gezeigt, dass mit Hilfe von Methoden der Mustererkennung 
sehr gute Ergebnisse für die Aufgabe der Emotionserkennung auf Basis von 
Gesichtsbildern erreicht werden können. Außerdem konnte gezeigt werden, 
dass die Ergebnisse vergleichbar sind mit dem Stand der Technik, der durch 
neuronale Netze dominiert wird. Ausgehend von dem Merkmalsmodell sind 
somit die Grundsteine gelegt, um Beobachtungen für ein dynamisches Mo- 
dell zur Verfolgung des emotionalen Zustands zu generieren. Das folgende 
Kapitel widmet sich auf Basis dieser Beobachtungen der Erzeugung eines dy- 
namischen Modells zur Verfolgung des emotionalen Zustands. 
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Im Verlauf eines Gesprächs kann sich der emotionale Zustand eines Menschen 
ändern. Eine solche Änderung kann aufgrund einer traurigen Nachricht wäh- 
rend eines Gesprächs entstehen, oder aufgrund der Mitteilung eines Gewinns. 
Damit man einfühlend auf den Gesprächspartner eingehen kann, sollte die 
Änderung des emotionalen Zustands erfasst werden. Der neue emotionale Zu- 
stand wird sich in einer fließenden Bewegung entwickeln. Eine solche fließen- 
de Bewegung ist in Abbildung 7.1 dargestellt. Darin wird die Entwicklung aus- 
gehend von dem neutralen Gesichtsausdruck in den emotionalen Ausdruck 
für Freude gezeigt. 


Damit ein automatisches System in der Lage ist, die Anbahnung einer Emo- 
tion oder den Verlauf einer Emotion zu tracken muss der dynamische Kon- 
text der Emotion betrachtet werden. Im Stand der Technik in Abschnitt 2.4 
werden multimodale Merkmale verwendet, um ein Tracking des emotiona- 
len Zustands zu erreichen. Im Gegensatz dazu verwendet diese Arbeit aus- 
schließlich Gesichtsmerkmale für die Erkennung des emotionalen Zustands. 
Die verwendeten Merkmale sind die ASF-Merkmale aus dem Abschnitt 2.3, 
die einen aus 29 Komponenten bestehenden Deskriptor für den Gesichtsaus- 
druck eines Menschen definieren. Die Einzelmerkmale setzen sich zusammen 


(d) (f) 


Abbildung 7.1: Transfer des neutralen Gesichtsausdrucks in einen freudigen Gesichtsausdruck, 
dargestellt von Subject S106 aus der Cohn-Kanade+-Datenbank (©Jeffrey Cohn). 
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aus Winkeln und Größenverhältnissen zwischen einzelnen Teilbereichen ei- 
nes Gesichts. Ein weiterer Unterschied zum Stand der Technik besteht in der 
Verwendung eines Zustandsraummodells für die Realisierung des Trackers 
für emotionale Zustände. Für das Zustandsraummodell wird der emotiona- 
le Zustand im Valenz-Erregungs-Raum (VA-Raum) repräsentiert. Die Abbil- 
dung einer ASF-Messung in den VA-Raum wird durch einen Gaußprozess 
erreicht. Das Training des GP erfolgt überwacht. Die durch den GP in den 
VA-Raum übertragenen Messungen werden in einem Kalman Filter verarbei- 
tet. Um Drift zu verhindern, wird eine Nebenbedingung mit der Unscented 
Transformation auf den Zustandsraum angewendet. 


Im Folgenden wird das formelle Problem der dynamischen Zustandsschät- 
zung für emotionale Zustände definiert. In Abschnitt 7.2 wird die auf Gauß- 
prozessen basierende Abbildung der ASF-Merkmale in den VA-Raum behan- 
delt. Die eigentliche Zustandsschätzung und die Einführung der Nebenbedin- 
gung sind Gegenstand von Abschnitt 7.3. In Abschnitt 7.4 werden numerische 
Ergebnisse zur Bewertung des dynamischen Ansatzes präsentiert. Das Kapi- 
tel schließt mit der Diskussion ab. 


7.1 Problemformulierung der dynamischen 
Zustandsschätzung für emotionale 
Zustände 


Die Daten für die dynamische Zustandsschätzung beinhalten Sequenzen, die 
die Initiierung einer Emotion zeigen. Die Initiierung bezeichnet die Sequenz 
ausgehend von einem neutralen Gesichtsausdruck, die in einem vollen emo- 
tionalem Gesichtsausdruck endet. Der hier präsentierte Tracker soll in der La- 
ge sein, den emotionalen Zustand während der gesamten Sequenz zu verfol- 
gen. Das hier verwendete Trackingmodell verwendet die sechs durch Ekman 
in [Ekm99] definierten Basisemotionen: Wut (A), Ekel (D), Furcht (F), Freude 
(H), Traurigkeit (S) und Überraschung (U). 
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7.1 Problemformulierung der dynamischen Zustandsschatzung für emotionale Zustände 


Um eine vereinfachte Zustandsrepräsentation zu erhalten, wird das Vorge- 
hen aus Al-Hamadi et al. [Al-16] verwendet. Darin werden Emotionsklassen 
durch spezifische Punkte im Valenz-Erregungs-Raum (VA-Raum) repräsen- 
tiert. Der aktuelle emotionale Zustand kann durch einen zweidimensionalen 
Vektor x = [v, al’ € R? dargestellt werden, wobei v für den Valenzwert 
und a für den Erregungswert stehen. Die Darstellung im VA-Raum entspricht 
einem kontinuierlichen Zustandsvektor. Eine diskrete Zustandsrepräsentati- 
on müsste um eine Komponente erweitert werden, die die Stärke der Emo- 
tion repräsentiert. Dieser Umstand ist implizit in der VA-Raum-Darstellung 
enthalten. Zusätzlich bietet die kontinuierliche Darstellung den Vorteil eines 
robusteren Trackings. 


Das eigentliche Trackingproblem wird als Bayes’sches Problem der Zu- 
standsschätzung definiert. In dieser Problemklasse wird angenommen, dass 
der Zustand ein Zufallsvektor x mit zugehöriger Wahrscheinlichkeitsvertei- 
lung P(x) ist. Für den Tracker von emotionalen Zuständen wird angenom- 
men, dass die zugehörige Wahrscheinlichkeitsverteilung des Zustands eine 
Normalverteilung ist, sodass 


x~ N (wc) (7.1) 


gilt. u ist der Mittelwert der Verteilung und C die zugehörige Kovarianzma- 
trix. | 


Die Schätzung des emotionalen Zustands erfolgt in zwei alternierenden 
Schritten: einem Prädiktions- und einem Filterschritt. Im Filterschritt wird 
der Schätzwert Xa des Zeitschritts k — 1 in den Zeitschritt k überführt, 
wobei für den diskreten Zeitschritt k = 0,1,... gilt. Im Sinne der verwendeten 
Bildsequenzen korrespondiert der diskrete Zeitpunkt k mit dem k-ten Bild 
der Sequenz. Das Resultat des Prädiktionsschritts wird durch den prädizierten 
Zustand x repräsentiert. Durch x ist die Eingabe des Filterschritts defi- 
niert. Im Filterschritt wird die Information, die aus dem k-ten Bild extrahiert 
wurde, dazu verwendet um zusammen mit dem prädizierten Zustand eine 
verbesserte Schätzung x zu erzeugen. 


193 


7 Tracking von Emotionszuständen 


N ' Y CY i 
ASF OH Zp He Ck Kalman 1 
Extraktion i Filterschritt j | 


Filterschritt 


k-tes Gesichtsbild 


Nebenbedingung 


Abbildung 7.2: Ablaufplan des Trackers fiir emotionale Zustande. 


In Abbildung 7.2 wird der Bayes’sche Filterprozess dargestellt. Um diesen 
Prozess vollständig zu realisieren müssen einige Anforderungen erfüllt wer- 
den. Zunächst müssen die ASF-Messungen in dem VA-Raum abgebildet wer- 
den. Im Anschluss muss ein Messmodell abgeleitet werden, durch das die VA- 
Messungen auf den Systemzustand abgebildet werden können. Es muss ein 
Systemmodell erzeugt werden, durch dass sich der Zustand in den nächsten 
Zeitschritt überführen lässt. Letztendlich muss die Ungleichheitsnebendin- 
gung eingeführt werden, durch die eine Drift des Systemzustands verhindert 
wird. 


7.2 Transformation der ASF-Merkmale in den 
Valenz-Erregungs-Raum 


Für die Zustandsschätzung ist eine kontinuierliche Zustandsrepräsentation 
vorteilhaft. Daher ist sie einer diskreten Klassenrepräsentation vorzuziehen. 
Durch das in Al-Hamadi et al. [Al-16] vorgeschlagene Vorgehen können die 
sechs Grundemotionen Wut (A), Ekel (D), Angst (F), Freude (H), Traurigkeit 
(S) und Überraschung (U) und zusätzlich die neutrale Emotion (N) als zwei- 
dimensionale Vektoren x im VA-Raum repräsentiert werden. Die zugehöri- 
gen Vektoren werden durch Tabelle 7.1 festgelegt. In Abbildung 7.3 sind die 
Punkte im Einheitskreis eingezeichnet. 


Die Messungen liegen in Form von ASF-Merkmalsvektoren z € R°? vor, 
wie sie in Abschnitt 2.3 eingeführt wurden. Diese Merkmalsvektoren wer- 
den aus den Bildern extrahiert und müssen dann in den VA-Raum abgebildet 
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7.2 Transformation der ASF-Merkmale in den Valenz-Erregungs-Raum 


Tabelle 7.1: Zuweisung der Valenz und Erregungs-Werte zu den sieben Basis-Emotionsklassen. 


Emotion p=lv, al" 
Neutral (N) [0,0] 
Wut (A) [-0.89, 0.45] 
Ekel (D) [-0.89, —0.45] 
Furcht (F) [-0.45, 0.89] 
Freude (H) [0.89, 0.45] 
Trauer (S) [-0.45, —0.89] 
Überraschung (U) [0.24, 0.97] 
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Abbildung 7.3: Abbildung der Basis-Emotionen auf den Valenz-Erregungs-Raum (VA-Raum) zur 
Ermittlung kontinuierlicher Messwerte für die Emotionserkennung. 


werden. Es gibt keine analytisch erklärbare Funktion, die diese Abbildung be- 
schreibt. Aus diesem Grund wird ein GP verwendet, der die Abbildung eines 
ASF-Vektors z in den VA-Raum lernt. Durch dieses Vorgehen kann eine Mes- 
sung im VA-Raum generiert werden, die direkt mit dem emotionalen System- 
zustand x verarbeitet werden kann. Hierdurch kann die Verwendung eines 
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linearen Bayes’schen Schätzers, wie zum Beispiel dem Kalman Filter, verwen- 
det werden. Hier muss kein approximativer, nichtlinearer Bayes’scher Schät- 
zer verwendet werden. 


Die Problemstellung, einen ASF-Vektor z in einen VA-Vektor x abzubilden, 
kann als Regressionsproblem betrachtet werden. Die ASF-Vektoren bilden ei- 
nen kontinuierlichen Vektorraum, ebenso wie auch der VA-Raum ein kontinu- 
ierlicher Vektorraum ist. Zur Lösung des Regressionsproblems wird in dieser 
Arbeit die GP Regression verwendet. Der Vorteil der GP Regression besteht 
darin, dass ein GP Regressor Unsicherheiten erfassen kann, die aufgrund von 
Rauschen oder partiellen Überdeckungen resultieren. 


Ein GP besitzt eine Vielzahl von günstigen Eigenschaften. Zum Beispiel kann 
ein GP als Distribution über Funktionen interpretiert werden, da er aus einer 
unendlichen Anzahl von Gaußverteilten Zufallsvariablen zusammengesetzt 
wird. Daraus resultiert die praktische Eigenschaft, dass jede marginale Ver- 
teilung eines GP wiederum Gaußverteilt ist. Eine gründliche Einführung in 
GPs findet sich in Abschnitt 3.4. 


Ein GP ist vollständig durch eine Mittelwertfunktion m(.) und eine Kova- 
rianzfunktion «(.,.) definiert. Durch die Kovarianzfunktion können weitere 
nützliche Eigenschaften hinzugefügt werden, wie Glattheit oder Nicht- 
Stationarität. In diesem Fall wird der GP dazu verwendet, um die Funktion 


y=g(@)+e (7.2) 


wird aus Trainingsdaten D = (zy) saty (a )} abgeleitet und g(.) = 
= Le 2 


BIOR FO) ist die latente Abbildung der ASF-Vektoren z auf VA-Messungen 
y, wobei € € N (0,C*) ein gaußverteiltes, weißes Rauschen mit einer diago- 
nalen Kovarianzmatrix Cf = diag (07,07) ist. Die GP Funktionen g;(.) und 
8;(.) sind individuelle Funktionen für die Abbildung auf die Valenz und auf 
die Erregung. Das Training erfolgt überwacht anhand der Trainingsdaten D 
unabhängig für jeden der beiden GPs. Eine genaue Abhandlung über das Trai- 
ning eines GP kann in Abschnitt 3.4 nachgelesen werden. 
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7.2 Transformation der ASF-Merkmale in den Valenz-Erregungs-Raum 


Mit der trainierten GP Abbildung g(.) kann aus einem gemessenen ASF Vektor 

z eine VA-Messung y ~ N (w ‚c’ ) abgeleitet werden. Die Ableitung erfolgt 
u = T 

über den Mittelwertvektor u” = Ra ie | und die Kovarianzmatrix C = 


š yy2 yy2 $ à 
diag G ) (3) | Die Komponenten des Mittelwertvektors werden durch 


HSK KY, A 
bestimmt, wobei i = 1,2 gilt. Es gilt weiter k = [x (z> z) mR (z.. z)]. so- 
wie A N [Yii ich Vials K; wird durch K; = K +0? -I,, berechnet. K ist eine 

—D,i 


Kernelmatrix, die durch (K), p = x (2; Z,) erzeugt wird, wobei Vz» Zz € D 
gilt. I, ist eine nxn-Einheitsmatrix. Die Kernelmatrix wird durch Anwendung 
der Kernelfunktion x(.,.) auf paarweise ASF-Vektoren aus der Trainingsmen- 


2 
ge D erzeugt. Die Varianz (o? ) kann durch 


(0?) = x (zz) —k" -K7!-k (7.4) 


bestimmt werden. Durch (7.3) und (7.4) können ASF-Vektoren in den VA- 
Raum transformiert werden. 


Alternativ könnte der GP verwendet werden, den Systemzustand im VA-Raum 
direkt auf eine ASF-Messung abzubilden. Dazu wäre eine Regression vom 
niedrig-dimensionalen VA-Raum in den hoch-dimensionalen ASF-Raum not- 
wendig. Eine solche Abbildung erfordert genaue Kenntnis der VA-Werte, die 
den ASF-Messungen entsprechen. Da diese nicht vorliegen, wird in dieser Ar- 
beit darauf verzichtet, diese Transformation als weitere Alternative zu be- 
trachten. 
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7.3 Herleitung des Trackers mit 
Nebenbedingung 


Der emotionale Zustand wird mit einem Bayes’schen Schätzer getrackt. In 
einem Bayes’schen Schätzer wird der Systemzustand als Zufallsvektor x, re- 
präsentiert. k bezeichnet einen diskreten Zeitindex. Es wird angenommen, 
dass der Systemzustand x, für jeden Zeitpunkt k gaußverteilt ist. Es existie- 
ren ein Mittelwert u und eine Kovarianzmatrix C; für jeden Systemzustand. 
In dieser Arbeit wird ein Kalman Filter für die Bayes’sche Zustandsschätzung 
verwendet. Mit dem Kalman Filter werden der Mittelwert und die Kovarianz- 
matrix für den emotionalen Zustand geschätzt. Als Messungen werden Mes- 
sungen im VA-Raum verwendet, die zuvor durch den GP aus Abschnitt 7.2 aus 
dem ASF-Raum in den VA-Raum transformiert wurden. 


Im Filterschritt wird der prädizierte Systemzustand x ~N (u? ; c?) aus 
= Lk 


dem vorherigen Prädiktionsschritt mit einer Messung im VA-Raum aktuali- 
siert. Der Filterschritt resultiert in einem geschätzten Systemzustand x ~ 


(Eck) 
7.3.1 Filterschritt des Trackers 


Die Messabbildung kann den Systemzustand direkt mit Messungen im VA- 
Raum in Verbindung bringen, weil der GP aus dem vorherigen Abschnitt Mes- 
sungen im VA-Raum liefert. 


yr 
we =x, tV; (7.5) 


ist die Messabbildung mit Messrauschen YaN (0, Ci). Die Kovarianz- 
matrix c? ist ein Resultat der Transformation der ASF-Messung in die 
VA-Messung H mit Kovarianzmatrix c} durch den GP. Durch Einsetzen 


der Messabbildung (7.5) in die Filtergleichung des Kalman-Filters kann 
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durch (3.23) und (3.24) die verbesserte Zustandsschätzung x „N (ue, ce) 


berechnet werden, wobei 


T. 0) 
C? = C? — Gk- C? (7.7) 


den Mittelwertvektor K und die Kovarianzmatrix C berechnen. Die Matrix 


G,, ist das sogenannte Kalman-Gain aus (3.22). 


7.3.2 Prädiktionsschritt des Trackers 


Es ist kein Modell bekannt, das die zeitliche Entwicklung des emotionalen Zu- 
stands abbildet. Deswegen wird das Constant-Positions Modell (CP-Modell) 


Mea = xX, + 2, ve) 
io N (0, c2) verwendet. Durch das CP-Modell 
wird die brownsche Molekularbewegung modelliert. Das CP-Modell ist in 
Abschnitt 3.2.2 beschrieben. 


mit dem Rauschterm w 


Der Kalman Prädiktionsschritt (3.18) und (3.19) wird auf (7.8) angewendet, um 


eine Schätzung des prädizierten Zustands x? 41 aus der aktuellen Schätzung 
x zu erhalten. Mittelwert und Kovarianzmatrix von = z werden durch 
P = ue 7.9 
Mei Mk ( ) 
P _ re w 
Ci =C; +C; (7.10) 
berechnet. 
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7.3.3 Nebenbedingungen für den Tracker 


Aufgrund von verrauschten Messungen kann es vorkommen, dass der ge- 
schätzte Zustand den Einheitskreis verlässt, in dem der VA-Raum definiert 
ist. Ein solcher Zustand muss korrigiert werden, damit der Einheitskreis ein- 
gehalten wird. Darum wird durch 


x”-x<1 (7.11) 


eine nichtlineare Nebenbedingung definiert. Der Zustandsvektor x ist ein re- 
eller Zufallsvektor. Deswegen kann (7.11) nicht auf einfachem Weg angewen- 
det werden. Die Herleitung einer analytischen Transformation, die garantiert, 
dass der größte Teil der Wahrscheinlichkeitsmaße die Nebenbedingung er- 
füllt, ist im Allgemeinen sehr schwer zu erreichen. Um die Nebenbedingung 
trotzdem anwenden zu können, wird der von Kandepu et al. in [Kan08] vorge- 
schlagene Ansatz zur Anwendung rechteckiger Nebenbedingungen in einem 
Unscented Kalman Filter angewendet. 


Zunächst werden Sigmapunkte X, aus den prädizierten und geschätzten Zu- 


P 
k 


schnitt 3.2.4 nachgelesen werden. Es wird geprüft, ob jeder Sigmapunkt X, 
die Nebenbedingung (7.11) erfüllt. Falls ein Sigmapunkt sich außerhalb des 
Einheitskreises befindet, wird dieser auf den Rand des Einheitskreises proji- 


ständen x, und x berechnet. Die Berechnung der Sigmapunkte kann in Ab- 


ziert. Durch 


2 x, 
X= (7.12) 
WII 


wird die Projektion für alle Sigmapunkte außerhalb des Einheitskreises ausge- 
führt. Somit entsteht eine Menge von korrigierten Sigmapunkten, die durch 
den Stichprobenmittelwert und die Stichprobenkovarianz korrigierte Schat- 


P 


zungen für x, und x berechnen. 
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7.4 Experimente zum Tracking von emotionalen Zuständen 


Die Nebenbedingung wird zweimal angewendet: nachdem der Zustand in den 
nächsten Zeitschritt prädiziert wurde und nach dem Filterschritt. Dieses Vor- 
gehen garantiert, dass der größte Teil der Wahrscheinlichkeitsmasse des Sys- 
temzustands die Nebenbedingung erfüllt. 


7.4 Experimente zum Tracking von 
emotionalen Zuständen 


Wie bereits im vorherigen Kapitel werden die beiden Datenbanken Cohn- 
Kanade+ und Oulu-Casia für die Durchführung der Experimente verwendet. 
Beide Datenbanken bestehen aus Sequenzen, die mit einem neutralen Ge- 
sichtsausdruck beginnen und in einem emotionalen Gesichtsausdruck enden. 


7.4.1 Training des GPs 


Für das Training des GP wurden 5536 ASF-Vektoren verwendet. Die 5536 
ASF-Vektoren wurden aus beiden Datenbanken extrahiert. Es wurden aus- 
schließlich voll ausgebildete emotionale Ausdrücke verwendet. Die Einzelbil- 
der wurden korrekt annotiert. Jeder Emotion wurde der entsprechende VA- 
Vektor aus Tabelle 7.1 zugeordnet. Die ASF-Vektoren wurden unter Verwen- 
dung der Hauptkomponentenanalyse vorverarbeitet, um numerisch stabile 
Werte zu erhalten. Es wurde eine Hyperparamteroptimierung durch Minimie- 
rung der negativen marginalen Log-Likelihood unter Verwendung der Trai- 
ningsdaten durchgeführt. Die Trainingsvektoren wurden durch den trainier- 
ten GP in den VA-Raum projiziert. Das Ergebnis dieses Tests ist in Abbildung 
7.4 abgebildet. 


Die ASF-Vektoren werden alle in die direkte Umgebung der korrespondieren- 
den VA-Werte durch den trainierten GP abgebildet. Die Verteilung der Sam- 
ples um den korrespondierenden VA-Wert kann zur Auswertung der Genau- 
igkeit des GPs herangezogen werden. Beide Datenbanken enthalten keine In- 
formationen über den korrekten VA-Wert für ihre Bilder. Deswegen können 
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Abbildung 7.4: Abbildung der Trainingssamples durch den GP zum Test des Trainings. 


hier keine Bilder verwendet werden, die nur teilweise Gesichtsausdrücke ent- 
halten. Die VA-Werte für die Zwischenbilder konnten nur geschätzt werden 
und sind daher dünn besetzt. Damit kann eine weitere Begründung für die 
Entscheidung den GP nicht als Messmodel zu verwenden gegeben werden. 
Aufgrund der vorgestellten Einschränkungen ist eine Verwendung des GPs 
zur Abbildung der ASF-Vektoren in den VA-Raum passender. 


7.4.2 Tracking des emotionalen Zustands 


Zur Auswertung der experimentellen Ergebnisse wird der vorgestellte Tra- 
cker für emotionale Zustände mit der Abkürzung GPET bezeichnet. Der GPET 
wird auf alle Sequenzen der beiden Datenbanken angewendet. Die Recher- 
chen zu dieser Studie haben ergeben, dass kein weiterer Tracker für emo- 
tionale Zustände ausschließlich Gesichtsausdrücke verwendet. Daher werden 
keine Vergleiche zum Stand der Technik aufgeführt. 
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Abbildung 7.5: Durch den GPET geschatzte Sequenz der CK Datenbank. 


Abbildung 7.5 zeigt das Ergebnis der Schätzung des GPET mit einer Sequenz 
aus der Cohn-Kanade+ (CK) Datenbank. Die Sequenz beginnt im neutralen 
Zustand (N) und entwickelt sich in Richtung der emotionalen Zustands Wut 
(A). Die Sequenz wird durch eine stückweise, lineare Funktion dargestellt. Die 
Punkte der Sequenz stellen die Zustandsschätzungen des GPET dar. Es wird 
davon ausgegangen, dass der wahre Entwicklungsverlauf einer Emotion ei- 
ner linearen Funktion entspricht. Im Fall von Abbildung 7.5 würde demnach 
der wahre Verlauf annähernd eine Gerade zwischen dem neutralen Zustand 
(N) und dem emotionalen Zustand (A) sein. Zur Auswertung der Güte der 
Schätzung wird der Abstand der Schätzungen von der angenommenen Gera- 
den bestimmt. Der dargestellte Verlauf hat generell einen geringen Abstand 
von der angenommenen geraden Linie zwischen A und N. 


Die generelle Auswertung des Tests mit den Datenbanken erfolgte durch Be- 
stimmung des Mittelwerts aller Distanzen der individuellen Schätzungen des 
emotionalen Zustands bezogen auf die angenommene Gerade zwischen dem 
neutralen und dem finalen emotionalen Zustand. In diesem Experiment wird 
das Ergebnis des GPET mit dem Ergebnis eines genutzten GPs als Schätzer für 
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Tabelle 7.2: Ergebnisse der Schätzung des emotionalen Zustands unter Verwendung der CK Da- 


tenbank. 

Emotion N Fehler GPET Fehler GP 

Wut (A) 60 | 0.1907 + 0.0974 | 0.1911 + 0.0931 
Ekel (D) 66 | 0.1447 + 0.0736 | 0.1510 + 0.0680 
Furcht (F) 66 | 0.1637 + 0.0981 | 0.1571 + 0.0902 
Freude (H) 90 | 0.1467 +0.0848 | 0.1454 + 0.0778 
Traurigkeit (S) 75 | 0.1790 + 0.0910 | 0.1723 + 0.0819 
Überraschung (U) | 86 | 0.0929 + 0.0511 | 0.0879 + 0.0472 


Tabelle 7.3: Ergebnisse der Auswertung des emotionalen Trackings der Sequenzen der OC- 


Datenbank. 

Emotion N Fehler GPET Fehler GP 

Wut (A) 80 | 0.2076 + 0.1005 | 0.2541 + 0.1164 
Ekel (D) 80 | 0.1905 + 0.0927 | 0.2175 + 0.0978 
Furcht (F) 80 | 0.1588 + 0.0834 | 0.1815 + 0.0902 
Freude (H) 80 | 0.1620 + 0.0818 | 0.2019 + 0.0978 
Traurigkeit (S) 80 | 0.1737 +0.0884 | 0.1988 + 0.1013 
Überraschung (U) | 80 | 0.1532 + 0.0668 | 0.1663 + 0.0717 


den emotionalen Zustand verglichen. Damit sollte der Vorteil der Verwendung 
eines Bayes’schen Schätzers zusammen mit einem GP verdeutlicht werden. 
Die Ergebnisse der Schätzung der 443 Sequenzen der CK Datenbank sind in 
Tabelle 7.2 aufgetragen. 


Die Auswertung der 480 Sequenzen der OC Datenbank ist in Tabelle 7.3 dar- 
gestellt. 


Es wurden Kreuzvalidierungen zur Auswertung der mittleren Fehler der Tra- 
cker durchgeführt. Die Tabellen 7.2 und 7.3 zeigen, dass eine kombinierte Nut- 
zung eines Bayes’schen Schätzers mit GP Regression ähnliche oder gar signi- 
fikant reduzierte Fehler für die Schätzung der Sequenzen erzeugt im Vergleich 
zur alleinigen Nutzung der GP Regression. Im Vergleich mit der GP Regressi- 
on sind die Ergebnisse in Tabelle 7.3 erfolgversprechender. Für jeden emotio- 
nalen Zustand besitzt die Schätzung des GPET einen signifikant niedrigeren 
Fehler als die alleinige Nutzung der GP Regression. 
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Für einen weiteren Test wird der XGBoost Klassifikator aus dem vorherigen 
Kapitel für die Bild-zu-Bild Schätzung des emotionalen Zustands verwendet. 
Um die Ergebnisse vergleichen zu können werden verschiedene Maße berech- 
net: 


« Die Bildnummer des ersten Bildes der Sequenz, das korrekt klassifiziert 
wurde. Der Wert wird in Prozent angegeben, sodass kleinere Werte bes- 
ser sind als große. 


Die Anzahl der korrekt klassifzierten Bilder einer Sequenz in Prozent. 
Die ersten 30% einer Sequenz werden der neutralen Klasse zugeordnet 
und die restlichen dem finalen emotionalen Zustand der Sequenz. 


Die Anzahl der Klassenwechsel innerhalb einer Sequenz, kleinere 
Werte sind besser. 


Die Anzahl der Sequenzen bei denen der Tracker kein Ergebnis 
lieferte, kleinere Werte sind besser. 


Die VA Schätzungen des GPET werden durch Ermittlung der Mahalanobis- 
Distanz zwischen dem geschätzten Systemzustand und allen anderen Klassen 
im VA-Raum auf die Klassen abgebildet. Die Mahalanobis-Distanz ist durch 


d(xy) = Ve- ‚zul (x-y) (7.13) 


gegeben. Die Mahalanobis-Distanz gewichtet den Abstand mit der inversen 
der Kovarianzmatrix Ł. Eine Schätzung wird der Klasse zugeordnet, für die 
die berechnete Mahalanobis-Distanz am geringsten ist. Die Ergebnisse des 
XGBoost Klassifikators für beide Datenbanken sind in Tabelle 7.4 aufgetragen. 


Zum Vergleich der Ergebnisse ist die Auswertung der Kennzahlen für den 
GPET in Tabelle 7.5 enthalten. 


Der XGBoost Tracker hat die meisten fehlgeschlagenen Sequenzen, insbeson- 
dere wenn man die OC-Datenbank Ergebnisse betrachtet, siehe Tabelle 7.4. Im 
Vergleich dazu schneidet der GPET besser ab. Die Anzahl der korrekt klassi- 
fizierten Einzelbilder einer Sequenz ist höher als bei dem XGBoost basierten 
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Tabelle 7.4: Auswertung der Trackingqualität des XGBoost Klassifikators für beide Datenban- 


ken inklusive der Standardabweichungen. 


Erste 


Anteil 


Tabelle 7.5: Auswertung der Trackingqualität für den GPET inklusive der Standardabweichun- 


Klasse korrekte korrekter on Fehler 
Schätzung Bilder in % MER 
1-CK 59.46 + 20.00 | 39.13 + 10.61 5.67 + 5.67 52 
2-CK 59.37 + 18.55 | 60.62 + 19.66 4.24 + 4.24 12 
3-CK 50.14 + 23.64 | 65.41 + 19.68 4.77 + 4.77 22 
4-CK 40.12 + 16.42 | 68.90 + 21.40 4.23 + 2.45 4 
5-CK 52.88 + 22.89 | 45.00 + 14.72 5.49 + 4.54 43 
6-CK 53.40 + 21.26 | 64.95 + 23.02 3.66 + 2.42 25 
1-OC 33.93 + 17.71 | 52.74 + 14.70 6.25 + 5.48 73 
2-OC 49.00 + 17.23 | 45.90 + 15.28 5.31 + 3.00 49 
3-OC 49.15 + 13.70 | 50.00 + 17.48 4.56 + 2.87 64 
4-OC 41.53 + 12.91 | 47.58 + 16.42 4.01 + 2.24 46 
5-OC 40.37 +9.72 | 53.92 + 17.30 4.96 + 3.22 73 
6-OC 50.75 + 13.61 | 46.95 + 14.66 3.61 + 2.21 65 
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gen. 
Erste Anteil Kl 
Klasse korrekte korrekter ge Fehler 
x R ` wechsel 
Schätzung Bilder in % 
1-CK 51.48 + 25.01 | 49.83 + 17.93 5.43 + 4.30 26 
2-CK 51.57 + 22.31 | 57.26 + 18.25 3.59 + 1.78 19 
3-CK 55.76 + 21.23 | 57.67 + 18.90 3.94 + 3.49 33 
4-CK 50.46 + 20.24 | 71.94 + 19.48 3.52 + 2.46 19 
5-CK 47.26 + 24.12 | 40.25 + 10.18 4.60 + 3.35 45 
6-CK 52.83 + 18.29 | 77.86 + 16.80 2.42 + 1.19 7 
1-OC 58.46 + 21.33 | 57.79 + 13.88 6.44 + 3.42 3 
2-OC 54.61 + 23.37 | 57.40 + 15.68 6.36 + 3.24 2 
3-OC 54.50 + 21.19 | 62.27 + 15.45 6.78 + 3.31 2 
4-OC 54.08 + 18.58 | 66.98 + 15.66 5.24 + 2.74 3 
5-OC 56.89 + 23.14 | 56.33 + 15.54 6.70 + 3.46 0 
6-OC 54.57 + 19.40 | 67.92 + 18.88 5.19 + 2.74 1 


7.5 Zusammenfassung 


Ansatz. Sehr auffallig ist die geringe Fehleranzahl fiir die OC-Datenbank. Al- 
lerdings benötigt GPET länger bis die korrekte Klasse getrackt wird. Diese 
Geschwindigkeit wäre höher, wenn für die Zwischenbilder eine korrekte Zu- 
ordnung des emotionalen Zustands im VA-Raum zugeordnet wären. In die- 
sem Fall könnte ein genaueres Training der GP Regression erfolgen, wodurch 
eine Verbesserung des Trackings mit GPET erreicht werden könnte. Basie- 
rend auf den präsentierten Ergebnissen ist eine kombinierte Verwendung von 
Bayes’scher Zustandsschätzung mit GP Regression zu empfehlen. 


7.55 Zusammenfassung 


Das siebte Kapitel stellt einen neuen Ansatz zum Tracking von emotionalen 
Zustanden basierend auf der Beobachtung von Gesichtsausdriicken vor. Die 
ASF-Merkmale aus Kapitel 6 werden aus Bildern extrahiert und mit Gaußpro- 
zess Regression in den Valenz-Erregungs-Raum abgebildet. Die so abgebilde- 
ten Merkmale werden als Messungen für einen Bayes’schen Zustandsschätzer 
verwendet. Es wird eine nichtlineare Nebenbedingung in Form einer Unglei- 
chung in den Zustandsschätzer eingebracht, um die Drift des Zustands in ei- 
nem Bereich außerhalb des Definitionsbereichs des Valenz-Erregungs-Raums 
zu verhindern. 


In Experimenten mit Sequenzen der beiden Emotionsbilddatenbanken Cohn- 
Kanade+ und Oulu-Casia konnte gezeigt werden, dass der vorgestellte 
Bayes’sche Schätzer in Kombination mit einer GP Regression einen robusten 
Trackingalgorithmus darstellt. Es konnte gezeigt werden, dass die Tracking- 
ergebnisse stabiler und größtenteils besser waren als die dazu im Vergleich 
erzielten Ergebnisse mit dem Bild-zu-Bild-Tracker auf Basis einer alleinigen 
Gaußprozess Regression und einem XGBoost-Klassifikator. 


Das Ziel bereits die Anbahnung eines emotionalen Gesichtsausdrucks zu 
erfassen ist ab 50% der Sequenz bei allen Emotionen gelungen. Allerdings 
zeigt die Unsicherheit der VA-Raum Abbildung insbesondere im Anfangssta- 
dium einer Emotionssequenz, dass hier noch Verbesserungspotential nötig 
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ist. Durch ein validiertes Labeling der Anbahnungssequenzen könnte hier 


eine deutliche Verbesserung erreicht werden. 


In diesem Kapitel wurde somit ein erstes funktionierendes Tracking- 
Verfahren von Emotionen in Gesichtsbildern vorgestellt. 
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Menschen werden in vielen Situationen beobachtet. Die vorliegende Arbeit 
Tracking von Menschen und menschlichen Zuständen stellt Ansätze für die Be- 
obachtung von Menschen und ihren Zuständen vor. Der Fokus der Arbeit 
liegt dabei auf der Kommunikationsebene. Menschliche Kommunikation fin- 
det häufig nonverbal statt und hierfür ist der Gesichtsausdruck von großer 
Bedeutung. Daher werden im Verlauf der Arbeit zunächst Ansätze für das Ge- 
sichtstracking geliefert. Hierfür wurde ein Modell aufgestellt, das eine Verfol- 
gung eines 68 Punkte umfassenden Landmarkenmodells ermöglicht. In einem 
stochastischen Filtermodell wurden die Landmarken als Zustandsvariablen 
eingesetzt. Um eine Gleichheits-Nebenbedingung einzuführen, wurde das Un- 
scented Kalman Filter verwendet, welches verhindert, dass die Landmarken 
in unkoordinierter Weise auseinander driften. Per Hauptkomponentenanaly- 
se wurde ein Normmodell trainiert, das ausreichend Varianz enthält, um alle 
möglichen Gesichtsausdrücke zu erhalten. Die Landmarken wurden auf den 
nächsten passenden Gesichtsausdruck projiziert. Somit konnte ein robuster 
Schätzer generiert werden, der immer ein gültiges Landmarkenmodell enthält. 


Im Kapitel 5 wurde die Beobachtungsleistung von Probanden beurteilt und 
als Aspekt der menschlichen Leistungsfähigkeit verwendet. Mit dem Ziel, die 
Existenz eines Trainingseffekts nachzuweisen, wurden zwei Studien durchge- 
führt. In der ersten Studie wurde die Leistung vor und nach einem Training be- 
urteilt. Die zweite Studie verwendet künstliche Bilderkennungsalgorithmen, 
um Entscheidungshilfen bereitzustellen; zusätzlich wurde hier die Aufmerk- 
samkeit durch eine sekundäre Aufgabe beurteilt. Die Studien konnten den 
Trainingseffekt nicht eindeutig nachweisen. Allerdings konnten Indikatoren 
abgeleitet werden, die bei der Erstellung von Beobachtungstrainings helfen. 


209 


8 Zusammenfassung 


Das Extrahieren von Informationen aus dem Landmarkenmodell wurde im 
Kapitel 6 auf die Erkennung von emotionalen Zustanden abgebildet. Zur Cha- 
rakterisierung des emotionalen Zustands wurde insgesamt eine Menge von 26 
Winkeln und 3 Größeninformationen extrahiert. Dieser Merkmalssatz lieferte 
einen robusten Ansatz zur Schätzung des emotionalen Zustands vom Aus- 
gangspunkt eines Landmarkenmodells, das aus statischen Bilddaten extra- 
hiert wurde. In Zusammenarbeit mit dem XGBoost-Klassifikator liefert diese 
Informationsquelle sehr gute Ergebnisse. Diese wurden in Vergleichsexperi- 
menten zum Stand der Technik verglichen, insbesondere zu Deep Learning 
Modellen. 


Im letzten Kapitel dieser Arbeit wurde der Merkmalsansatz zur Erkennung 
von Emotionen auf ein dynamisches Modell zum Tracking des emotiona- 
len Zustands erweitert. Der Stand der Technik zeigt keine Arbeiten, die 
ausschließlich auf dem Gesichtsausdruck ein Tracking des emotionalen Zu- 
stands durchführen. Die meisten Arbeiten basieren auf der multimodalen 
Analyse von Sprache und Körpersprache. Hier wurde ein Ansatz gewählt, 
der ausschließlich mit dem Gesichtsausdruck arbeitet. Zunächst wurde ei- 
ne Übertragung des emotionalen Zustands auf eine kontinuierliche Größe 
entwickelt. Es wurde ein Gaußprozess trainiert, der die Emotionen auf 
den Valenz-Erregungsraum abbildet. Diese Abbildung hat ein Trackingpro- 
blem ermöglicht. Der Systemzustand konnte durch das Valenz-Erregungs- 
Wertepaar repräsentiert werden. Für das Tracking wurde ein Kalman Filter 
mit einer Ungleichheitsnebenbedingung formuliert. 


Die Sigmapunkte der Unscented Transformation wurden auf den Einheits- 
kreis projiziert, sofern sie sich außerhalb diesem befanden. Hierdurch konn- 
ten gute Trackingergebnisse ermittelt werden, die robust bei der Anbahnung 
eines emotionalen Gesichtsausdrucks funktionierten. 


Die Formulierung eines Trackingmodells für die Verfolgung des emotiona- 
len Gesichtsausdrucks beschließt diese Arbeit. Es zeigt, dass es möglich ist, 
ein Framework basierend auf dem 68 Punkte umfassenden Landmarkenmo- 
dell zu formulieren. Damit lassen sich verschiedene Aufgaben erfüllen von 
der Erkennung des emotionalen Zustands bis hin zur Verfolgung des emotio- 
nalen Zustands. Im Vergleich mit dem State of the Art gibt es Methoden, die 
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eine etwas höhere Genauigkeit liefern, jedoch ausschließlich für den Klassifi- 
kationsgebrauch genutzt werden. In dieser Arbeit konnte ein Modell für viele 


Aufgaben eingesetzt werden. 


Für zukünftige Arbeiten kann das Modell beschleunigt werden, um eine Echt- 
zeitauswertung der genannten Zustände zu ermöglichen. Ebenso können ein- 
zelne Komponenten des Frameworks durch bessere Modelle ersetzt werden, 
um die Leistung zu verbessern. Der Emotionsklassifikator kann mit weite- 
ren Daten geprüft werden. Zusätzlich kann man mit mehr Trainingsdaten die 
Stabilität der Ergebnisse erhöhen. 
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Detektionsleistung von Probanden. Im Fall von 20 
Markierungen bei 150 Avataren bedeutet der Eintrag, dass 
sechs der 15 Avatare markiert wurden und ein Blickwinkel 
von 72° verwendet wurde. . u Er! 
Getestete Hypothesen für die Studie zur Evaluierung des 
Einflusses der Bildanalysealgorithmenqualität auf die 
Detektionsleistung von Probanden. : 
Ergebnisse der Detektionszeiten und -raten, sowie der 
Reaktionszeiten und Trefferraten fiir die akustischen 
Stimuli bei einer steigenden Anzahl von Avataren. Die 
Vergleichswerte sind als Median der gemessenen 
Verteilungen gegeben. 
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